Voorbij de Afweging: Zelf-gesuperviseerd Reinforcement Learning voor Redeneermodellen' Instructieopvolging

Samenvatting

Redeneermodellen blinken uit in complexe probleemoplossing, maar vertonen een zorgwekkende afweging tussen redeneervaardigheden en het vermogen om instructies op te volgen. Bestaande benaderingen om het volgen van instructies te verbeteren, zijn afhankelijk van sterkere externe modellen, wat methodologische knelpunten en praktische beperkingen met zich meebrengt, waaronder hogere kosten en toegankelijkheidsbeperkingen. Wij stellen een zelfgesuperviseerd RL-raamwerk voor dat gebruikmaakt van de interne signalen van redeneermodellen zelf om het vermogen om instructies op te volgen te verbeteren zonder externe supervisie. Uitgebreide experimenten tonen aan dat ons raamwerk het vermogen om instructies op te volgen aanzienlijk verbetert, terwijl de redeneerprestaties behouden blijven. Dit biedt een schaalbare en kosteneffectieve benadering om het volgen van instructies in redeneermodellen te versterken. De data en code zijn openbaar beschikbaar op https://github.com/Rainier-rq/verl-if.

English

Reasoning models excel in complex problem solving but exhibit a concerning trade off between reasoning capabilities and instruction following abilities. Existing approaches for improving instruction following rely on stronger external models, creating methodological bottlenecks and practical limitations including increased costs and accessibility constraints. We propose a self-supervised RL framework that leverages reasoning models' own internal signals to improve instruction following capabilities without external supervision. Extensive experiments demonstrate that our framework significantly improves instruction following capabilities while maintaining reasoning performance, offering a scalable and cost-effective approach to enhance instruction following in reasoning models. The data and code are publicly available at https://github.com/Rainier-rq/verl-if.

Voorbij de Afweging: Zelf-gesuperviseerd Reinforcement Learning voor Redeneermodellen' Instructieopvolging

Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following

Samenvatting

Support