VerIF : Ingénierie de Vérification pour l'Apprentissage par Renforcement dans le Suivi d'Instructions

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu une technique clé pour améliorer les grands modèles de langage (LLM), où l'ingénierie de vérification joue un rôle central. Cependant, les meilleures pratiques pour l'apprentissage par renforcement dans le suivi d'instructions restent peu explorées. Dans ce travail, nous examinons le défi de la vérification dans l'apprentissage par renforcement pour le suivi d'instructions et proposons VerIF, une méthode de vérification qui combine la vérification de code basée sur des règles avec la vérification basée sur un LLM issu d'un grand modèle de raisonnement (par exemple, QwQ-32B). Pour soutenir cette approche, nous construisons un ensemble de données de haute qualité pour le suivi d'instructions, VerInstruct, contenant environ 22 000 instances accompagnées de signaux de vérification. Nous appliquons l'entraînement par renforcement avec VerIF à deux modèles, obtenant des améliorations significatives sur plusieurs benchmarks représentatifs du suivi d'instructions. Les modèles entraînés atteignent des performances de pointe parmi les modèles de taille comparable et généralisent bien à des contraintes non vues auparavant. Nous observons en outre que leurs capacités générales restent intactes, suggérant que l'apprentissage par renforcement avec VerIF peut être intégré aux recettes existantes d'apprentissage par renforcement pour améliorer les performances globales des modèles. Nous avons publié nos ensembles de données, codes et modèles pour faciliter les recherches futures à l'adresse https://github.com/THU-KEG/VerIF.

English

Reinforcement learning with verifiable rewards (RLVR) has become a key technique for enhancing large language models (LLMs), with verification engineering playing a central role. However, best practices for RL in instruction following remain underexplored. In this work, we explore the verification challenge in RL for instruction following and propose VerIF, a verification method that combines rule-based code verification with LLM-based verification from a large reasoning model (e.g., QwQ-32B). To support this approach, we construct a high-quality instruction-following dataset, VerInstruct, containing approximately 22,000 instances with associated verification signals. We apply RL training with VerIF to two models, achieving significant improvements across several representative instruction-following benchmarks. The trained models reach state-of-the-art performance among models of comparable size and generalize well to unseen constraints. We further observe that their general capabilities remain unaffected, suggesting that RL with VerIF can be integrated into existing RL recipes to enhance overall model performance. We have released our datasets, codes, and models to facilitate future research at https://github.com/THU-KEG/VerIF.

VerIF : Ingénierie de Vérification pour l'Apprentissage par Renforcement dans le Suivi d'Instructions

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following

papers.abstract

Support