飽和問題における推論モデルの訓練:失敗接頭辞条件付けによるアプローチ
Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning
January 28, 2026
著者: Minwu Kim, Safal Shrestha, Keith Ross
cs.AI
要旨
検証可能な報酬による強化学習(RLVR)は大規模言語モデル(LLM)の推論能力を大幅に向上させてきたが、問題が飽和するにつれて学習が行き詰まる傾向がある。我々は、核心的な課題が「情報量のある失敗へのアクセスの難しさ」にあると特定した。つまり、学習に有効な信号は存在するものの、標準的なロールアウトではほとんど遭遇しないのである。この問題に対処するため、我々は飽和した問題から学習するための簡潔かつ効果的な手法として、失敗接頭辞条件付けを提案する。元の質問から開始するのではなく、稀に生じる誤った推論軌道から導出された接頭辞を条件として訓練を行うことで、探索のリソース配分を変更し、モデルを失敗しやすい状態に曝露する。我々は、失敗接頭辞条件付けが、中程度の難易度の問題で訓練した場合と同等の性能向上をもたらしつつ、トークン効率を維持することを確認した。さらに、モデルの頑健性を分析した結果、本手法は誤った失敗接頭辞が与えられた場合の性能劣化を軽減するが、正しい初期推論への忠実性にわずかなトレードオフが生じることを見出した。最後に、訓練中に失敗接頭辞を更新する反復的アプローチにより、性能が頭打ちになった後でもさらなる向上が可能であることを実証する。全体として、我々の結果は、失敗接頭辞条件付けが飽和した問題に対するRLVR訓練を拡張する効果的な経路を提供することを示唆している。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has substantially improved the reasoning abilities of large language models (LLMs), yet training often stalls as problems become saturated. We identify the core challenge as the poor accessibility of informative failures: learning signals exist but are rarely encountered during standard rollouts. To address this, we propose failure-prefix conditioning, a simple and effective method for learning from saturated problems. Rather than starting from the original question, our approach reallocates exploration by conditioning training on prefixes derived from rare incorrect reasoning trajectories, thereby exposing the model to failure-prone states. We observe that failure-prefix conditioning yields performance gains matching those of training on medium-difficulty problems, while preserving token efficiency. Furthermore, we analyze the model's robustness, finding that our method reduces performance degradation under misleading failure prefixes, albeit with a mild trade-off in adherence to correct early reasoning. Finally, we demonstrate that an iterative approach, which refreshes failure prefixes during training, unlocks additional gains after performance plateaus. Overall, our results suggest that failure-prefix conditioning offers an effective pathway to extend RLVR training on saturated problems.