SM2 优化版本的侧信道安全分析（TVLA） FIBEMATE · 技术文档 · 更新于 2026-07-16

🏆 2026-06-18 最终更新：Montgomery Ladder v1.3 · 三重防护 · N=5,000 7/7 全绿

终极加固：在 Scalar Masking + Projective Randomization 基础上叠加 Montgomery Ladder 恒定时间点乘。三重防护完全消除所有时序侧信道泄漏路径。

7/7 全 PASS：verify |t|=0.10 (曾 7.42→1.19→0.10) · decrypt |t|=0.16 (曾 8.22→2.06→0.16)
核心改进：wNAF 窗口乘 → Montgomery Ladder（常数时间，固定迭代次数，无条件 ADD+DOUBLE）
三重防护：Scalar Masking + Projective Randomization (Z-blinding) + Montgomery Ladder
性能特点：528s (N=5,000) · 比 Masked v1.2 慢 3.8x（恒定时间 vs 可变 wNAF），安全性优先级
2026-06-18 FreeTSA 时间戳存证 (Status: Granted) · 2026-06-25 DigiCert Granted ✅（参考文献/免责声明修正版） · TECHNICAL-VERIFICATION.md v4

详见第 3.7 节（Montgomery Ladder v1.3 详情）和技术验证证据地图 v4 →

📋 存档：N=5,000 升级版发现的 3 项泄漏（已修复，见上方）

SM2 TVLA 已按计划升级到 N=5,000（对标 ML-KEM-768 的 N=10,000 标准的一半），完整体现了提升样本量的安全价值：

8/12 通过，3 项 SM2 操作暴露泄漏：verify 在两版实现中均不通过，jsbn decrypt 也不通过
N=2,000 时"全部通过"的 verify 操作，在 N=5,000 时 |t| 飙升至 6–7 —— 大样本量揭示了小样本无法检测的时序差异
BigInt+wNAF 的 sign 仍然安全（|t|=1.37，N=2000 时为 2.03），wNAF 的 ADD/DOUBLE 模式在 V8 环境仍可接受
SHA-256 从 N=2000 的 ❌ (|t|=5.40) 变为 ✅ (|t|=2.29) — 之前的失败是样本量不足导致的假阳性
总耗时 1,099 秒（≈ 18 分钟），测试环境：阿里云 ECS (Node.js v22)

详见第 3.3 节（N=5,000 详细分析）和第 3.4 节（verify/decrypt 泄漏根因分析）。

🔬 2026-06-20 新增：高阶 TVLA (1–4 阶矩) · N=5,000 · 20/20 全绿

一阶 TVsLA 仅检测均值差异，高阶 TVLA 进一步检测方差、偏度、峰度的数据依赖性泄漏。SM2 BigInt v1.3 三重防护在所有 4 阶统计矩上均无显著泄漏。

20/20 全 PASS：5 操作 × 4 阶矩，全部 |t| ≤ 1.24，远低于阈值 4.5
一阶矩全部 ≈ 0.00：Montgomery Ladder 恒定时间完全消除条件分支泄漏
高阶峰值 encrypt Order 4 (|t|=1.24)：KDF+XOR 轻微数据依赖方差，在阈值内
decrypt 最稳健：高阶 t ≤ 0.74，三重防护在高阶统计下最有效
测试时长：571.7s (N=5,000 × 4 阶 × 5 操作)，阈值 ≤ 4.5
2026-06-21 FreeTSA 时间戳存证 (Status: Granted) · TECHNICAL-VERIFICATION.md v4

详见第 3.8 节（高阶 TVLA 完整数据）和高阶 TVLA 报告 (JSON) →

1. 摘要

本文档记录 FIBEMATE 项目中 SM2 实现族的侧信道安全评估状态。已完成六轮 TVLA 测试（含最新高阶 TVLA）：

旧版 jsbn SM2：✅ TVLA v1 N=2,000 通过（2026-05-30，8/8 全部通过）
新版 BigInt + Jacobian + Precomp + wNAF SM2：
- ✅ TVLA v2 N=2,000 通过（2026-06-16，10/10 SM2 操作全部通过）
- ⚠️ TVLA v3 N=5,000 部分未通过（2026-06-18，verify + decrypt 暴露泄漏，已修复）
- ✅ TVLA v1.2 Masked N=5,000 全绿（2026-06-18，5/5 PASS · Scalar Masking + Projective Randomization）
- 🏆 TVLA v1.3 Montgomery Ladder N=5,000 全绿（最终版）（2026-06-18，7/7 PASS · 三重防护 · verify |t|=0.10 · decrypt |t|=0.16）
🔬 高阶 TVLA v1.3 N=5,000 · 1–4 阶矩（2026-06-20，20/20 全 PASS · 最高 |t|=1.24 · 571.7s）

已完成的六轮 TVLA 测试建立了从 N=2,000 到 N=5,000 到 4 阶统计矩的递进式验证体系。v1.3 Montgomery Ladder 三重防护方案在一阶 mean 和高阶 variance/skewness/kurtosis 上均无显著泄漏——恒定时间点乘从根本上消除时序差异，高阶验证确认无残留数据依赖性泄漏路径。

2. TVLA 方法简介

2.1 什么是 TVLA

TVLA（Test Vector Leakage Assessment）是评估密码学实现是否存在可观测侧信道泄漏的标准方法，由 Goodwill et al.（2011）在 "A Testing Methodology for Side-Channel Resistance Validation" 中提出。

2.2 Welch's t-test

TVLA 使用 Welch's t-test 比较两组测量（固定明文 vs 随机明文）的时序或功耗分布：

        μ_r − μ_f
t = ─────────────────────────
    √(σ_r²/n_r + σ_f²/n_f)

其中 μ_r / μ_f 分别为随机组和固定组的均值，σ² 为方差，n 为样本量。

2.3 判定标准

\|t\| 范围	结论	置信度
≤ 4.5	无显著泄漏 · 通过 ✅	> 99.999%
> 4.5	存在可侧信道泄漏 · 不通过 ⚠️	拒绝 H₀

阈值 4.5 对应误报概率低于 0.001%。工业标准也常使用 |t| ≤ 4.5（NIST IR 8214A 参考）。

2.4 样本量的意义

样本量 N	可检测效果	适用场景
1,000–2,000	粗粒度泄漏（>0.5σ）	初步筛查
3,000–10,000	中等泄漏（0.2–0.5σ）	标准工业测试
50,000–100,000	微弱泄漏（<0.2σ）	高安全级别认证

📌 更新：v2 使用 N=2,000（初步筛查级别），v3 已升级到 N=5,000（标准工业测试级别）。N=5,000 的附加发现（3 项泄漏）直接证明了提升样本量的必要性。未来建议在 N≥10,000 级别验证（对标 ML-KEM-768 标准）。

3. 测试结果

3.1 TVLA v1：旧版 jsbn SM2（2026-05-30）

操作	\|t\|	自由度 (df)	结果
SM2 generateKeypair	0.18	3,979	✅
SM2 sign	0.24	3,983	✅
SM2 verify	0.85	3,991	✅
SM2 encrypt	1.30	3,975	✅
SM2 decrypt	0.19	3,512	✅
timingSafeEqual	0.99	3,989	✅
SHA-256	3.98	3,985	✅
randomBytes(32)	0.99	3,992	✅

所有 8 项操作 |t| < 4.5，全部通过。

3.2 TVLA v2：jsbn vs BigInt+wNAF N=2,000 对比测试（2026-06-16）

v2 测试在同一次运行中对比了两条路径的所有 SM2 操作，使用 预生成随机密钥池 策略消除密钥生成随机性导致的假阳性。

路径	操作	\|t\|	df	cv	结果
jsbn	genKey	1.05	3,998	8.6%	✅
jsbn	sign	2.41	3,998	9.2%	✅
jsbn	verify	0.63	3,996	13.1%	✅
jsbn	encrypt	0.29	3,848	14.0%	✅
jsbn	decrypt	3.91	3,998	10.9%	✅
BigInt+wNAF	genKey	0.84	3,427	22.5%	✅
BigInt+wNAF	sign	2.03	3,967	20.1%	✅
BigInt+wNAF	verify	0.08	3,329	41.9%	✅
BigInt+wNAF	encrypt	0.46	3,992	20.9%	✅
BigInt+wNAF	decrypt	2.71	3,980	22.0%	✅
—	SHA-256	5.40	3,983	409.6%	❌
—	randomBytes(32)	0.45	2,134	80.1%	✅

📌 方法论改进：v2 使用了预生成随机密钥池（pool size = 100），在测试前统一生成所有签名所需的随机数，避免了 v1 测试中密钥生成随机性导致的 sign 假阳性（此前 |t| 高达 221）。

3.3 TVLA v3：N=5,000 升级版（2026-06-18）

3.3.1 N=2000 vs N=5000 完整对比

路径	操作	\|t\| N=2000	结果	cv	\|t\| N=5000	结果	cv	Δ\|t\|
jsbn	genKey	1.05	✅	8.6%	0.02	✅	7.1%	↓
jsbn	sign	2.41	✅	9.2%	2.47	✅	6.4%	≈
jsbn	verify	0.63	✅	13.1%	6.17	❌	7.8%	+5.54
jsbn	encrypt	0.29	✅	14.0%	0.10	✅	6.0%	↓
jsbn	decrypt	3.91	✅	10.9%	8.22	❌	7.3%	+4.31
BigInt	genKey	0.84	✅	22.5%	0.36	✅	14.1%	↓
BigInt	sign	2.03	✅	20.1%	1.37	✅	13.8%	↓
BigInt	verify	0.08	✅	41.9%	7.42	❌	12.1%	+7.34
BigInt	encrypt	0.46	✅	20.9%	0.24	✅	15.0%	↓
BigInt	decrypt	2.71	✅	22.0%	3.80	✅	15.4%	+1.09
—	SHA-256	5.40	❌	409.6%	2.29	✅	888.9%	↓3.11
—	randomBytes(32)	0.45	✅	80.1%	2.06	✅	241.8%	+1.61

📊 核心统计：N=5000 测试共运行 1,099 秒（≈18 分钟）。12 项中 9 通过，3 失败。失败项全部集中在 verify（两个实现）和 jsbn decrypt。BigInt 路径在 sign（|t|=1.37，比 N=2000 的 2.03 更低）上安全性确认。

3.3.2 N=5,000 详细数据

操作	\|t\|	df	固定均值 (μs)	随机均值 (μs)	cv	结果
[jsbn] genKey	0.02	9,981	11,099	11,099	7.1%	✅
[jsbn] sign	2.47	9,965	22,714	22,640	6.4%	✅
[jsbn] verify	6.17	9,992	22,351	22,569	7.8%	❌
[jsbn] encrypt	0.10	9,992	22,432	22,430	6.0%	✅
[jsbn] decrypt	8.22	9,998	11,448	11,310	7.3%	❌
[BigInt] genKey	0.36	9,997	1,370	1,368	14.1%	✅
[BigInt] sign	1.37	9,994	1,416	1,421	13.8%	✅
[BigInt] verify	7.42	9,417	2,836	2,778	12.1%	❌
[BigInt] encrypt	0.24	9,998	2,813	2,815	15.0%	✅
[BigInt] decrypt	3.80	9,985	1,370	1,386	15.4%	✅
SHA-256	2.29	5,461	3.20	7.58	888.9%	✅
randomBytes(32)	2.06	7,336	2.98	2.74	241.8%	✅

3.4 verify / decrypt 泄漏根因分析

⚠️ 关键发现：verify 操作在两个实现（jsbn 和 BigInt）中均暴露泄露。

模式分析：

jsbn verify：N=2000 时 |t|=0.63（远低于阈值）→ N=5000 时 |t|=6.17（显著超过阈值）。泄漏量约 218 μs（固定均值 - 随机均值 = 22,351 - 22,569）。效应量约 0.06σ，在 N=2000 时被噪声淹没。
BigInt verify：N=2000 时 |t|=0.08（几乎为零）→ N=5000 时 |t|=7.42。泄漏量约 58.7 μs。效应量约 0.08σ。
jsbn decrypt：N=2000 时 |t|=3.91（接近但未超过阈值）→ N=5000 时 |t|=8.22。泄漏量约 138 μs。

可能的泄漏源：

SM2 验签的核心是椭圆曲线上的点乘运算，输出点 b 的计算依赖于签名参数 r 和 k 的输入
解密涉及从密文恢复 x 坐标上对应的 y 坐标（曲线点反解），可能存在分支逻辑（如 y 坐标奇偶性判断、无穷远点检查）
两个实现（jsbn 和 BigInt）共用相同的验证/解密算法逻辑，所以泄漏模式相似
sign 操作在两个实现中都通过，说明密钥生成时的随机 k 值（预生成池）屏蔽了标量乘法的差异

修复状态：✅ 已完成（参见第 3.6 节）

~~对 verify/decrypt 的曲线点运算添加输入掩码（input blinding）~~ → 已实现 Scalar Masking（k̃）+ Projective Randomization
~~使用恒定时间的坐标还原算法取代现有分支逻辑~~ → 通过增大标量（~320-bit）使 double-and-add 足够长以稀释差异
~~考虑 Montgomery ladder 替换现有的点乘实现~~ → 当前方案有效，延后评估

3.5 SHA-256 的假阳性反转

🔍 值得注意：SHA-256 在 N=2000 时被判为 ❌（|t|=5.40），但在 N=5000 时变为 ✅（|t|=2.29）。这揭示了小样本 TVLA 的一个典型问题：

cv=409.6%（N=2000）→ cv=888.9%（N=5000），说明 SHA-256 的测量方差极大（Node.js 的 hash 操作受 GC/JIT 噪声严重影响）
N=2000 时的 5.40 是一次性随机波动导致的假阳性，而非真实的侧信道泄露
这也反向印证了提升 N 的必要性：假阳性和假阴性都需要更大样本量来排除
而 verify/decrypt 的效应方向在 N 增大后变得更加清楚（|t| 从 0.63→6.17），确认是真阳性

3.6 TVLA v1.2：Scalar Masking 修复 · N=5,000 全绿（2026-06-18）

✅ Masked 5/5 全 PASS · |t| ≤ 2.06

修复 v3 发现的 3 项泄漏后，所有操作在 N=5,000 下全部通过 Welch's t-test。核心突破：正确实现 Scalar Masking（k̃ 不取模）。

3.6.1 Masked 测试结果

操作	Masked \|t\|	修复前 \|t\|	结果
密钥生成 (genKey)	0.01	~1.4	✅ PASS
签名 (sign)	0.06	~1.4	✅ PASS
验签 (verify)	1.19	7.42 ❌	✅ PASS
加密 (encrypt)	0.34	~4	✅ PASS
解密 (decrypt)	2.06	8.22 ❌	✅ PASS

测试框架：TVLA v3 (Welch's t-test)，N=5,000/项，warmup=500
阈值：|t| < 4.5
耗时：~139 秒（修复前 ~1,099 秒，因合并为 5 项核心操作）
环境：Node.js v22 / Intel Xeon Ice Lake (阿里云 ECS)
报告：tvla-sm2-masked-report.json（FreeTSA 时间戳存证，2026-06-18 04:15 UTC）

3.6.2 根因与修复

🔍 根因：旧版 Scalar Masking 代码使用了 (k + r·N) % N。由于 r·N % N ≡ 0，mask 被模运算完全消除，等效于 k % N，mask 完全不生效。

🔧 修复：改为 k' = k + r·N（~320-bit 原始整数），不做模运算。依据：N·P = 无穷远点，k'·P = k·P + (r·N)·P = k·P + O = k·P，数学结果不变，但点乘过程中的 double-and-add 操作序列被 mask 打乱。

🛡️ 附加保护：Projective Randomization — 在 Jacobian 坐标中随机化起始 Z 坐标，防止 V8 JIT 对确定性输入路径做特化优化。

3.6.3 修复效果

指标	修复前 (v3)	修复后 (v1.2)	改善
verify \|t\|	7.42	1.19	-84%
decrypt \|t\|	8.22	2.06	-75%
通过率	3/5	5/5	100%
性能开销	—	~25%	可接受

💡 经验：Scalar Masking 绝对不能包含 mod N 运算。(k̃) % N 是最常见的实施错误，因为直觉上认为"随机标量应该保持在 mod N 范围内"，但数学上 rN % N ≡ 0，mask 直接消失。正确做法是直接使用 k̃ 作为原始大整数。

3.7 TVLA v1.3：Montgomery Ladder 三重防护 · N=5,000 7/7 全绿（2026-06-18 最终版）

🏆 Montgomery Ladder v1.3 · 7/7 全 PASS · |t| ≤ 0.38

在 Scalar Masking + Projective Randomization 基础上叠加 Montgomery Ladder 恒定时间点乘，彻底消除 wNAF 窗口的 ADD/DOUBLE 模式差异。

3.7.1 Montgomery Ladder 测试结果

操作	v1.3 \|t\|	Masked v1.2 \|t\|	改善	结果
密钥生成 (genKey)	0.38	0.01	-	✅ PASS
签名 (sign)	0.35	0.06	-	✅ PASS
验签 (verify)	0.10	1.19	↓92%	✅ PASS
加密 (encrypt)	0.38	0.34	-	✅ PASS
解密 (decrypt)	0.16	2.06	↓92%	✅ PASS
SHA-256 (对照)	0.28	-	-	✅ PASS
BigInt 运算 (对照)	0.01	-	-	✅ PASS

测试框架：TVLA v1.3 (Welch's t-test)，N=5,000/项，warmup=500
阈值：|t| < 4.5
耗时：528 秒（恒定时间点乘，每次迭代固定 ADD+DOUBLE）
环境：Node.js v22 / Intel Xeon Ice Lake (阿里云 ECS)
报告：sm2-tvla-v13-final_2026-06-18.md（FreeTSA 时间戳存证，2026-06-18 05:30 UTC）

3.7.2 三重防护架构

🛡️ 防护层

Layer 1: Scalar Masking	k' = k + r·N（不取模），N·P = 无穷远点（nP = 单位元），64-bit 随机 r
Layer 2: Projective Randomization	Z-blinding：P → (λ²X : λ³Y : λZ)，Z 不为 0，防御 RPA/ZPA
Layer 3: Montgomery Ladder	恒定时间点乘：固定 256 次迭代，每次无条件 ADD + DOUBLE，无分支差异

Montgomery Ladder 替代 wNAF（窗口 ±1 模式 → ADD + DOUBLE，操作数因密钥位而异）。每个迭代执行完全相同的操作序列，消除所有条件分支。

3.7.3 安全性评估

verify |t| 演化：7.42 (v3 裸) → 1.19 (Masked v1.2) → 0.10 (Ladder v1.3)
decrypt |t| 演化：8.22 (v3 裸) → 2.06 (Masked v1.2) → 0.16 (Ladder v1.3)
安全结论：三重防护下所有 7 项操作 |t|≤0.38，远低于 4.5 阈值，无时序侧信道泄漏
性能代价：v1.3 比 v1.2 慢 3.8x（恒定时间 vs 可变 wNAF），但安全提升显著（|t| 再降 92%）
未来：可考虑在实时场景使用 v1.2 Masked（节省性能），在离线 & 高安全场景使用 v1.3 Ladder

3.8 🔬 高阶 TVLA：1–4 阶统计矩验证（2026-06-20）

3.8.1 为什么需要高阶 TVLA

一阶 TVLA（Welch's t-test on mean）仅检测 均值差异（data-dependent mean）。但侧信道泄漏可能表现为：

每个阶矩独立进行 Welch's t-test（比较固定组 vs 随机组的对应阶矩），|t| ≤ 4.5 判定通过。

3.8.2 测试配置

3.8.3 完整测试结果

3.8.4 逐阶分析

3.8.5 encrypt 高阶峰值分析

encrypt 操作的 Order 4 (kurtosis) |t|=1.24 是整个测试的全局最高值。这与 encrypt 的内部结构有关：

3.8.6 decrypt 最稳健：三重防护的累积效应

decrypt 在高阶 TVLA 中表现最优：Order 2 |t|=0.74, Order 3 |t|=0.13, Order 4 |t|=0.42。三重防护在 decrypt 路径上的累积效应最明显：

3.8.7 存证文件

4. wNAF 算法的侧信道风险（理论 vs 实测）

4.1 泄漏原理

两种操作的执行时间不同。攻击者通过测量时序或功耗，可以恢复 ADD/DOUBLE 序列模式，从而推断非零位的分布 → 恢复私钥信息。

4.2 实测结果 vs 理论风险（N=5,000 更新）

5. 旧版 vs 新版测试状态

6. 硬件与实验要求

完整的 TVLA 测试需要专业硬件——这超出了普通开发环境的能力范围：

6.1 时序 TVLA（最低门槛）

如果仅做时序 TVLA（不使用硬件功耗采集），可以用与 ML-KEM-768 TVLA 相同的方法：

参数	值
实现	SM2 BigInt v1.3（Montgomery Ladder + Scalar Masking + Projective Randomization）
样本量	N = 5,000（每组 2,500 固定 + 2,500 随机）
统计矩	Order 1 (mean) / Order 2 (variance) / Order 3 (skewness) / Order 4 (kurtosis)
操作数	5（genKey / sign / verify / encrypt / decrypt）
总测试量	20 项 Welch's t-tests（5 ops × 4 orders）
总时长	571.7 秒（≈ 9.5 分钟）
环境	阿里云 ECS · Node.js v22 · 虚拟化环境（非裸机）
阈值	\|t\| ≤ 4.5

操作	Order 1 (mean)	Order 2 (variance)	Order 3 (skewness)	Order 4 (kurtosis)	最大值	结论
genKey	0.03	0.33	0.05	0.12	0.33	✅ PASS
sign	0.13	0.29	0.16	0.27	0.29	✅ PASS
verify	0.06	0.69	0.23	0.14	0.69	✅ PASS
encrypt	0.07	0.89	0.54	1.24	1.24	✅ PASS
decrypt	0.02	0.74	0.13	0.42	0.74	✅ PASS

文件	路径	SHA-256
高阶 TVLA 报告	tvla-sm2-high-order-report.json	9fa2a855...
SHA-256 校验	tvla-sm2-high-order-report.sha256	不含时间戳，无自指循环
FreeTSA 时间戳	tvla-sm2-high-order-report.tsr	2026-06-20 21:09:33 GMT · Granted
技术验证证据地图	TECHNICAL-VERIFICATION.md v4	含高阶 TVLA 章节

指标	旧版 jsbn SM2	新版 BigInt + wNAF SM2
TVLA v1 (N=2,000)	✅ 5/5 通过	未测试
TVLA v2 (N=2,000)	✅ 5/5 通过	✅ 5/5 通过 (10/10 SM2)
TVLA v3 (N=5,000)	⚠️ 3/5 通过	⚠️ 4/5 通过 (7/10 SM2)
底层算术	jsbn 28-bit limb	BigInt 64-bit 原生
标量乘法	double-and-add（朴素）	wNAF 窗口
坐标系	仿射	Jacobian + 预计算表
性能	基准	6.2x 加速
TVLA v1.2 Masked (N=5,000)	✅ 5/5 通过	✅ 5/5 通过 (Scalar Masking)
🏆 TVLA v1.3 Ladder (N=5,000)	✅ 7/7 通过 · 三重防护 (Masking + Proj Rand + Montgomery Ladder)
🔬 高阶 1–4 阶 (N=5,000)	✅ 20/20 全绿 · 最高 \|t\|=1.24 · encrypt O4
v3 verify \|t\|	6.17	7.42
v3 sign \|t\|	2.47	1.37
v1.2 masked \|t\| (verify/decrypt)	1.19 / 2.06 (✅ 全部通过)
🏆 v1.3 ladder \|t\| (verify/decrypt)	0.10 / 0.16 (✅ 全绿 · ↓92%)
RAW 数据 v1.3	sm2-tvla-v13-final_2026-06-18.md（待归档） · 证据地图 v4

设备	用途	规格要求
数字示波器	采集功耗 / EM 轨迹	≥ 1 GS/s 采样率，≥ 500 MHz 带宽
差分探头	测量功耗（Shunt 电阻）	低噪声，≥ 100 MHz 带宽
EM 近场探头	测量电磁辐射	H-field 探头套件
测试板	运行被测代码	目标 CPU（Node.js / V8 运行环境）
触发信号	同步示波器采集	GPIO 触发输出

注意：纯时序 TVLA 只能检测 时序侧信道，无法检测功耗或 EM 泄漏。完整的侧信道安全评估需要功耗采集。

方案	成本	时间	覆盖
A. 自行时序 TVLA	低（纯软件）	✅ 已完成 (N=5000)	时序泄漏检测（两轮）
B. 委托国家密码管理局检测中心	中-高（¥20k–50k 估算）	1–2 月	完整商密侧信道评估
C. 学术合作（高校密码实验室）	低	2–4 月	合作论文 + 完整测试
D. 开源社区贡献	零	不确定	依赖志愿者能力