VerIF: Verifikationsingenieurwesen für bestärkendes Lernen in der Befolgung von Anweisungen
VerIF: Verification Engineering for Reinforcement Learning in Instruction Following
June 11, 2025
Autoren: Hao Peng, Yunjia Qi, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li
cs.AI
Zusammenfassung
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich zu einer Schlüsseltechnik für die Verbesserung großer Sprachmodelle (LLMs) entwickelt, wobei die Verifizierungstechnik eine zentrale Rolle spielt. Dennoch sind bewährte Verfahren für RL in der Befolgung von Anweisungen noch unzureichend erforscht. In dieser Arbeit untersuchen wir die Herausforderung der Verifizierung in RL für die Befolgung von Anweisungen und schlagen VerIF vor, eine Verifizierungsmethode, die regelbasierte Code-Verifizierung mit LLM-basierter Verifizierung durch ein großes Reasoning-Modell (z. B. QwQ-32B) kombiniert. Um diesen Ansatz zu unterstützen, erstellen wir einen hochwertigen Datensatz für die Befolgung von Anweisungen, VerInstruct, der etwa 22.000 Instanzen mit zugehörigen Verifizierungssignalen enthält. Wir wenden RL-Training mit VerIF auf zwei Modelle an und erzielen signifikante Verbesserungen in mehreren repräsentativen Benchmarks für die Befolgung von Anweisungen. Die trainierten Modelle erreichen state-of-the-art Leistungen unter Modellen vergleichbarer Größe und generalisieren gut auf unbekannte Einschränkungen. Weiterhin stellen wir fest, dass ihre allgemeinen Fähigkeiten unbeeinträchtigt bleiben, was darauf hindeutet, dass RL mit VerIF in bestehende RL-Rezepte integriert werden kann, um die Gesamtleistung des Modells zu steigern. Wir haben unsere Datensätze, Codes und Modelle unter https://github.com/THU-KEG/VerIF veröffentlicht, um zukünftige Forschung zu erleichtern.
English
Reinforcement learning with verifiable rewards (RLVR) has become a key
technique for enhancing large language models (LLMs), with verification
engineering playing a central role. However, best practices for RL in
instruction following remain underexplored. In this work, we explore the
verification challenge in RL for instruction following and propose VerIF, a
verification method that combines rule-based code verification with LLM-based
verification from a large reasoning model (e.g., QwQ-32B). To support this
approach, we construct a high-quality instruction-following dataset,
VerInstruct, containing approximately 22,000 instances with associated
verification signals. We apply RL training with VerIF to two models, achieving
significant improvements across several representative instruction-following
benchmarks. The trained models reach state-of-the-art performance among models
of comparable size and generalize well to unseen constraints. We further
observe that their general capabilities remain unaffected, suggesting that RL
with VerIF can be integrated into existing RL recipes to enhance overall model
performance. We have released our datasets, codes, and models to facilitate
future research at https://github.com/THU-KEG/VerIF.