オフポリシーガイダンス下での推論学習Learning to Reason under Off-Policy Guidance
大規模推論モデル(LRM)の最近の進展により、多段階推論や自己反省といった高度な振る舞いが、単純なルールベースの報酬を用いた強化学習(RL)を通じて自然に出現することが示されています。しかし、既存のゼロRLアプローチは本質的に「オン・ポリシー」であり、モデル自身の出力に学習が限定され、初期能力を超えた推論能力を獲得することができません。本論文では、LUFFY(Learning to reason Under oFF-policY guidance)を提案します。これは、オフ・ポリシーの推論トレースを用いてゼロRLを拡張するフレームワークです。LUFFYは、トレーニング中にオフ・ポリシーのデモンストレーションとオン・ポリシーのロールアウトを組み合わせることで、模倣と探索を動的にバランスさせます。特に、混合ポリシートレーニング中に表面的で硬直的な模倣を避けるため、正則化重要度サンプリングによるポリシーシェイピングを提案します。注目すべきは、LUFFYが6つの数学ベンチマークで平均+7.0以上の向上を達成し、分布外タスクでは+6.2ポイント以上の優位性を示したことです。また、特に汎化能力において、模倣ベースの教師ありファインチューニング(SFT)を大幅に上回りました。分析によれば、LUFFYは効果的に模倣するだけでなく、デモンストレーションを超えた探索も行い、オフ・ポリシーガイダンスを用いて汎化可能な推論モデルをトレーニングするためのスケーラブルな道筋を提供します。