VerIF: Verifikationsingenieurwesen für bestärkendes Lernen in der Befolgung von Anweisungen

papers.abstract

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich zu einer Schlüsseltechnik für die Verbesserung großer Sprachmodelle (LLMs) entwickelt, wobei die Verifizierungstechnik eine zentrale Rolle spielt. Dennoch sind bewährte Verfahren für RL in der Befolgung von Anweisungen noch unzureichend erforscht. In dieser Arbeit untersuchen wir die Herausforderung der Verifizierung in RL für die Befolgung von Anweisungen und schlagen VerIF vor, eine Verifizierungsmethode, die regelbasierte Code-Verifizierung mit LLM-basierter Verifizierung durch ein großes Reasoning-Modell (z. B. QwQ-32B) kombiniert. Um diesen Ansatz zu unterstützen, erstellen wir einen hochwertigen Datensatz für die Befolgung von Anweisungen, VerInstruct, der etwa 22.000 Instanzen mit zugehörigen Verifizierungssignalen enthält. Wir wenden RL-Training mit VerIF auf zwei Modelle an und erzielen signifikante Verbesserungen in mehreren repräsentativen Benchmarks für die Befolgung von Anweisungen. Die trainierten Modelle erreichen state-of-the-art Leistungen unter Modellen vergleichbarer Größe und generalisieren gut auf unbekannte Einschränkungen. Weiterhin stellen wir fest, dass ihre allgemeinen Fähigkeiten unbeeinträchtigt bleiben, was darauf hindeutet, dass RL mit VerIF in bestehende RL-Rezepte integriert werden kann, um die Gesamtleistung des Modells zu steigern. Wir haben unsere Datensätze, Codes und Modelle unter https://github.com/THU-KEG/VerIF veröffentlicht, um zukünftige Forschung zu erleichtern.

English

Reinforcement learning with verifiable rewards (RLVR) has become a key technique for enhancing large language models (LLMs), with verification engineering playing a central role. However, best practices for RL in instruction following remain underexplored. In this work, we explore the verification challenge in RL for instruction following and propose VerIF, a verification method that combines rule-based code verification with LLM-based verification from a large reasoning model (e.g., QwQ-32B). To support this approach, we construct a high-quality instruction-following dataset, VerInstruct, containing approximately 22,000 instances with associated verification signals. We apply RL training with VerIF to two models, achieving significant improvements across several representative instruction-following benchmarks. The trained models reach state-of-the-art performance among models of comparable size and generalize well to unseen constraints. We further observe that their general capabilities remain unaffected, suggesting that RL with VerIF can be integrated into existing RL recipes to enhance overall model performance. We have released our datasets, codes, and models to facilitate future research at https://github.com/THU-KEG/VerIF.

VerIF: Verifikationsingenieurwesen für bestärkendes Lernen in der Befolgung von Anweisungen

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following

papers.abstract

Support