「アハ!」を超えて:大規模推論モデルにおける体系的なメタ能力アラインメントに向けてBeyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large
Reasoning Models
大規模推論モデル(LRM)は、すでに長い連鎖思考推論の潜在能力を備えています。これまでの研究では、結果ベースの強化学習(RL)が、自己修正、バックトラッキング、検証といった高度な推論行動を偶発的に引き起こすことが示されており、これらはしばしばモデルの「ひらめきの瞬間」と呼ばれています。しかし、これらの創発的行動のタイミングと一貫性は予測不可能で制御不能であり、LRMの推論能力の拡張性と信頼性を制限しています。これらの制限に対処するため、我々はプロンプトや偶発的な「ひらめきの瞬間」への依存を超え、自動生成された自己検証可能なタスクを用いて、モデルを三段階のパイプライン(個別アライメント、パラメータ空間の統合、ドメイン固有の強化学習)で明示的にアライメントし、指示チューニングされたベースラインに対して10%以上の性能向上を実現しました。さらに、アライメントされたチェックポイントからのドメイン固有のRLは、数学、コーディング、科学のベンチマークで平均2%の性能上限の向上をもたらし、明示的なメタ能力アライメントが推論のための拡張可能で信頼性の高い基盤を提供することを示しています。コードは以下で公開されています:https://github.com/zhiyuanhubj/Meta-Ability-Alignment