ChatPaper.aiChatPaper

弱駆動学習:弱いエージェントが強いエージェントをさらに強くする仕組み

Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

February 9, 2026
著者: Zehao Chen, Gongxun Li, Tianxiang Ai, Yifei Li, Zixuan Huang, Wang Zhou, Fuzhen Zhuang, Xianglong Liu, Jianxin Li, Deqing Wang, Yikun Ban
cs.AI

要旨

ポストトレーニング最適化が大規模言語モデルの改善において中心的な役割を果たすにつれ、一貫した飽和ボトルネックが観察されている:モデルが高い確信度を持つようになると、それ以降のトレーニングでは収穫逓減が生じる。既存手法がターゲット予測の強化を続ける中で、情報量の多い教師信号がモデル自身の過去の弱い状態に潜在したまま残されていることがわかった。この観察に動機づけられて、我々はWMSS(弱いエージェントが強いエージェントをさらに強くできる)を提案する。これは弱いチェックポイントを活用して継続的な最適化を導くポストトレーニングのパラダイムである。エントロピー動態を通じて回復可能な学習ギャップを特定し、補償学習によってそれを強化することで、WMSSは強いエージェントが従来のポストトレーニング飽和を超えて改善することを可能にする。数学的推論とコード生成データセットでの実験により、本手法でトレーニングされたエージェントが効果的な性能向上を達成し、追加の推論コストを一切発生させないことが示された。
English
As post-training optimization becomes central to improving large language models, we observe a persistent saturation bottleneck: once models grow highly confident, further training yields diminishing returns. While existing methods continue to reinforce target predictions, we find that informative supervision signals remain latent in models' own historical weak states. Motivated by this observation, we propose WMSS (Weak Agents Can Make Strong Agents Stronger), a post-training paradigm that leverages weak checkpoints to guide continued optimization. By identifying recoverable learning gaps via entropy dynamics and reinforcing them through compensatory learning, WMSS enables strong agents to improve beyond conventional post-training saturation. Experiments on mathematical reasoning and code generation datasets show that agents trained with our approach achieve effective performance improvements, while incurring zero additional inference cost.
PDF1675February 11, 2026