VerIF: Verificatie-engineering voor Reinforcement Learning in Instructievolgsystemen

Samenvatting

Reinforcement learning met verifieerbare beloningen (RLVR) is een belangrijke techniek geworden voor het verbeteren van grote taalmodelen (LLMs), waarbij verificatie-engineering een centrale rol speelt. Best practices voor RL bij instructievolging blijven echter onderbelicht. In dit werk onderzoeken we de verificatie-uitdaging bij RL voor instructievolging en introduceren we VerIF, een verificatiemethode die regelgebaseerde codeverificatie combineert met LLM-gebaseerde verificatie van een groot redeneermodel (bijvoorbeeld QwQ-32B). Om deze aanpak te ondersteunen, hebben we een hoogwaardige dataset voor instructievolging, VerInstruct, samengesteld, die ongeveer 22.000 instanties bevat met bijbehorende verificatiesignalen. We passen RL-training met VerIF toe op twee modellen en behalen aanzienlijke verbeteringen op verschillende representatieve benchmarks voor instructievolging. De getrainde modellen bereiken state-of-the-art prestaties onder modellen van vergelijkbare grootte en generaliseren goed naar onbekende beperkingen. We observeren verder dat hun algemene capaciteiten onaangetast blijven, wat suggereert dat RL met VerIF kan worden geïntegreerd in bestaande RL-recepten om de algehele modelprestaties te verbeteren. We hebben onze datasets, code en modellen vrijgegeven om toekomstig onderzoek te faciliteren op https://github.com/THU-KEG/VerIF.

English

Reinforcement learning with verifiable rewards (RLVR) has become a key technique for enhancing large language models (LLMs), with verification engineering playing a central role. However, best practices for RL in instruction following remain underexplored. In this work, we explore the verification challenge in RL for instruction following and propose VerIF, a verification method that combines rule-based code verification with LLM-based verification from a large reasoning model (e.g., QwQ-32B). To support this approach, we construct a high-quality instruction-following dataset, VerInstruct, containing approximately 22,000 instances with associated verification signals. We apply RL training with VerIF to two models, achieving significant improvements across several representative instruction-following benchmarks. The trained models reach state-of-the-art performance among models of comparable size and generalize well to unseen constraints. We further observe that their general capabilities remain unaffected, suggesting that RL with VerIF can be integrated into existing RL recipes to enhance overall model performance. We have released our datasets, codes, and models to facilitate future research at https://github.com/THU-KEG/VerIF.

VerIF: Verificatie-engineering voor Reinforcement Learning in Instructievolgsystemen

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following

Samenvatting

Support