Voorbij de Afweging: Zelf-gesuperviseerd Reinforcement Learning voor Redeneermodellen' Instructieopvolging
Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following
August 4, 2025
Auteurs: Qingyu Ren, Qianyu He, Bowei Zhang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu
cs.AI
Samenvatting
Redeneermodellen blinken uit in complexe probleemoplossing, maar vertonen een zorgwekkende afweging tussen redeneervaardigheden en het vermogen om instructies op te volgen. Bestaande benaderingen om het volgen van instructies te verbeteren, zijn afhankelijk van sterkere externe modellen, wat methodologische knelpunten en praktische beperkingen met zich meebrengt, waaronder hogere kosten en toegankelijkheidsbeperkingen. Wij stellen een zelfgesuperviseerd RL-raamwerk voor dat gebruikmaakt van de interne signalen van redeneermodellen zelf om het vermogen om instructies op te volgen te verbeteren zonder externe supervisie. Uitgebreide experimenten tonen aan dat ons raamwerk het vermogen om instructies op te volgen aanzienlijk verbetert, terwijl de redeneerprestaties behouden blijven. Dit biedt een schaalbare en kosteneffectieve benadering om het volgen van instructies in redeneermodellen te versterken. De data en code zijn openbaar beschikbaar op https://github.com/Rainier-rq/verl-if.
English
Reasoning models excel in complex problem solving but exhibit a concerning
trade off between reasoning capabilities and instruction following abilities.
Existing approaches for improving instruction following rely on stronger
external models, creating methodological bottlenecks and practical limitations
including increased costs and accessibility constraints. We propose a
self-supervised RL framework that leverages reasoning models' own internal
signals to improve instruction following capabilities without external
supervision. Extensive experiments demonstrate that our framework significantly
improves instruction following capabilities while maintaining reasoning
performance, offering a scalable and cost-effective approach to enhance
instruction following in reasoning models. The data and code are publicly
available at https://github.com/Rainier-rq/verl-if.