一个保护自身
并在变好的系统。
Lyapunov 收敛证明。200 轮对抗演进。假阴性率降低 60%。
收敛性
Lyapunov 收敛性证明
FNR -60%,200 轮自演进后的数学可证收敛
V(x)=xᵀPx, V̇(x)≤-α‖x‖² — Lyapunov 函数保证指数级收敛
大多数系统随时间变化。MAREF 的演进引擎收敛。 Lyapunov 稳定性分析证明系统单调地向更安全的状态逼近——错误率不会振荡,而是向可证明的最小值递减。
可证明的收敛。
Lyapunov 稳定性保证系统随时间变得更安全,而不是变得更不同。目标是数学固定的。
200 轮。好 60%。
红蓝对抗演进。我们攻击了它 200 次。它每次都学得更好。FNR 下降 60%。
用行动赢得的信任。
五因素 Trust Engine v2。每次交互重新校准信任度。反博弈检测阻止智能体钻空子。
带着数学目的地的演进。
Lyapunov 稳定性分析证明治理引擎随时间向更安全的状态收敛。 假阴性率不会振荡——它单调地向可证明的最小值递减。不是"经验上更好",而是数学上保证了。
我们攻击了它 200 次。它感谢我们。
红蓝对抗演进让攻击智能体与防御智能体在 5 阶段回合中对抗。 攻击强度从 2.47 升级到 18.98(7.7 倍)。假阴性率从基线下降 60%。 每次攻击都让系统更强。
红蓝对抗演进循环
from maref import RedBlueEvolution
evolution = RedBlueEvolution(
rounds=200,
attack_intensity=(
"escalate", # 2.47 → 18.98
"adapt", # 从上轮学习
"diversify" # 尝试新攻击面
)
)
result = evolution.run()
print(f"FNR delta: {result.fnr_delta}%") # -60% 信任是赢来的。每次交互。重新校准。
Trust Engine v2 每次交互加权五个因素:近期性、一致性、对齐度、结果质量和对抗性。 Goodhart 反博弈检测阻止智能体为了优化信任指标而牺牲实际可信度。
技术规格
演进方式
红蓝对抗,5 阶段回合
轮数
200
FNR 降低
-60%
FPR 降低
-82%
攻击强度范围
2.47 → 18.98 (7.7x)
信任因素
5 — 近期性、一致性、对齐度、结果质量、对抗性
收敛证明
Lyapunov 稳定性分析,公开定理证明