超越“啊哈!”:迈向大型推理模型中的系统性元能力对齐Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large
Reasoning Models
大型推理模型(LRMs)已具备进行长链思维推理的潜在能力。先前的研究表明,基于结果的强化学习(RL)能够偶然引发诸如自我修正、回溯及验证等高级推理行为,这些现象常被喻为模型的“顿悟时刻”。然而,这些涌现行为的时机与一致性仍难以预测和控制,从而限制了LRMs推理能力的可扩展性与可靠性。为克服这些局限,我们不再依赖提示语与偶然的“顿悟时刻”,而是通过自动生成、可自我验证的任务,明确地将模型与三种元能力——演绎、归纳及溯因——对齐。我们的三阶段流程包括个体对齐、参数空间融合及领域特定强化学习,相较于指令调优基线,性能提升超过10%。此外,从对齐检查点出发的领域特定RL在数学、编程及科学基准测试中,平均性能上限再获2%的提升,证实了明确的元能力对齐为推理提供了可扩展且可靠的基础。代码已发布于:https://github.com/zhiyuanhubj/Meta-Ability-Alignment。