超越“顿悟”:迈向大型推理模型中的系统性元能力对齐Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large
Reasoning Models
大型推理模型(LRMs)已具备潜在的长链思维推理能力。先前研究表明,基于结果的强化学习(RL)能够偶然引发高级推理行为,如自我修正、回溯及验证现象,这些常被喻为模型的“顿悟时刻”。然而,这些涌现行为的时机与一致性仍难以预测和控制,制约了LRMs推理能力的可扩展性与可靠性。为克服这些局限,我们不再依赖提示与偶然的“顿悟时刻”,而是通过自动生成、可自我验证的任务,明确地将模型与三大元能力——演绎、归纳与溯因——对齐。我们的三阶段流程包括个体对齐、参数空间融合及领域特定强化学习,相较于指令调优基线,性能提升超过10%。此外,从对齐检查点出发的领域特定RL在数学、编程及科学基准测试中平均带来额外2%的性能上限提升,表明明确的元能力对齐为推理提供了可扩展且可靠的基础。代码已发布于:https://github.com/zhiyuanhubj/Meta-Ability-Alignment。