VerIF: Verificatie-engineering voor Reinforcement Learning in Instructievolgsystemen
VerIF: Verification Engineering for Reinforcement Learning in Instruction Following
June 11, 2025
Auteurs: Hao Peng, Yunjia Qi, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li
cs.AI
Samenvatting
Reinforcement learning met verifieerbare beloningen (RLVR) is een belangrijke techniek geworden voor het verbeteren van grote taalmodelen (LLMs), waarbij verificatie-engineering een centrale rol speelt. Best practices voor RL bij instructievolging blijven echter onderbelicht. In dit werk onderzoeken we de verificatie-uitdaging bij RL voor instructievolging en introduceren we VerIF, een verificatiemethode die regelgebaseerde codeverificatie combineert met LLM-gebaseerde verificatie van een groot redeneermodel (bijvoorbeeld QwQ-32B). Om deze aanpak te ondersteunen, hebben we een hoogwaardige dataset voor instructievolging, VerInstruct, samengesteld, die ongeveer 22.000 instanties bevat met bijbehorende verificatiesignalen. We passen RL-training met VerIF toe op twee modellen en behalen aanzienlijke verbeteringen op verschillende representatieve benchmarks voor instructievolging. De getrainde modellen bereiken state-of-the-art prestaties onder modellen van vergelijkbare grootte en generaliseren goed naar onbekende beperkingen. We observeren verder dat hun algemene capaciteiten onaangetast blijven, wat suggereert dat RL met VerIF kan worden geïntegreerd in bestaande RL-recepten om de algehele modelprestaties te verbeteren. We hebben onze datasets, code en modellen vrijgegeven om toekomstig onderzoek te faciliteren op https://github.com/THU-KEG/VerIF.
English
Reinforcement learning with verifiable rewards (RLVR) has become a key
technique for enhancing large language models (LLMs), with verification
engineering playing a central role. However, best practices for RL in
instruction following remain underexplored. In this work, we explore the
verification challenge in RL for instruction following and propose VerIF, a
verification method that combines rule-based code verification with LLM-based
verification from a large reasoning model (e.g., QwQ-32B). To support this
approach, we construct a high-quality instruction-following dataset,
VerInstruct, containing approximately 22,000 instances with associated
verification signals. We apply RL training with VerIF to two models, achieving
significant improvements across several representative instruction-following
benchmarks. The trained models reach state-of-the-art performance among models
of comparable size and generalize well to unseen constraints. We further
observe that their general capabilities remain unaffected, suggesting that RL
with VerIF can be integrated into existing RL recipes to enhance overall model
performance. We have released our datasets, codes, and models to facilitate
future research at https://github.com/THU-KEG/VerIF.