ChatPaper.aiChatPaper

トレードオフを超えて:推論モデルの指示追従のための自己教師あり強化学習

Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following

August 4, 2025
著者: Qingyu Ren, Qianyu He, Bowei Zhang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu
cs.AI

要旨

推論モデルは複雑な問題解決において優れた性能を発揮するが、推論能力と指示追従能力の間に懸念すべきトレードオフが存在する。指示追従能力を向上させるための既存のアプローチは、より強力な外部モデルに依存しており、コストの増加やアクセシビリティの制約を含む方法論的なボトルネックと実用的な限界を生み出している。本研究では、外部の監督を必要とせずに、推論モデルの内部信号を活用して指示追従能力を向上させる自己教師あり強化学習(RL)フレームワークを提案する。大規模な実験により、本フレームワークが推論性能を維持しながら指示追従能力を大幅に向上させることが実証され、推論モデルの指示追従能力を強化するためのスケーラブルでコスト効率の高いアプローチを提供する。データとコードはhttps://github.com/Rainier-rq/verl-ifで公開されている。
English
Reasoning models excel in complex problem solving but exhibit a concerning trade off between reasoning capabilities and instruction following abilities. Existing approaches for improving instruction following rely on stronger external models, creating methodological bottlenecks and practical limitations including increased costs and accessibility constraints. We propose a self-supervised RL framework that leverages reasoning models' own internal signals to improve instruction following capabilities without external supervision. Extensive experiments demonstrate that our framework significantly improves instruction following capabilities while maintaining reasoning performance, offering a scalable and cost-effective approach to enhance instruction following in reasoning models. The data and code are publicly available at https://github.com/Rainier-rq/verl-if.
PDF332August 5, 2025