VerIF: Ingeniería de Verificación para el Aprendizaje por Refuerzo en la Seguimiento de Instrucciones

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) se ha convertido en una técnica clave para mejorar los modelos de lenguaje de gran escala (LLMs), donde la ingeniería de verificación desempeña un papel central. Sin embargo, las mejores prácticas para el aprendizaje por refuerzo en la ejecución de instrucciones siguen siendo poco exploradas. En este trabajo, abordamos el desafío de la verificación en el aprendizaje por refuerzo para la ejecución de instrucciones y proponemos VerIF, un método de verificación que combina la verificación de código basada en reglas con la verificación basada en LLMs a partir de un modelo de razonamiento de gran escala (por ejemplo, QwQ-32B). Para respaldar este enfoque, construimos un conjunto de datos de alta calidad para la ejecución de instrucciones, VerInstruct, que contiene aproximadamente 22,000 instancias con señales de verificación asociadas. Aplicamos el entrenamiento de aprendizaje por refuerzo con VerIF a dos modelos, logrando mejoras significativas en varios puntos de referencia representativos para la ejecución de instrucciones. Los modelos entrenados alcanzan un rendimiento de vanguardia entre modelos de tamaño comparable y generalizan bien a restricciones no vistas. Además, observamos que sus capacidades generales permanecen inalteradas, lo que sugiere que el aprendizaje por refuerzo con VerIF puede integrarse en recetas existentes de aprendizaje por refuerzo para mejorar el rendimiento general del modelo. Hemos publicado nuestros conjuntos de datos, códigos y modelos para facilitar investigaciones futuras en https://github.com/THU-KEG/VerIF.

English

Reinforcement learning with verifiable rewards (RLVR) has become a key technique for enhancing large language models (LLMs), with verification engineering playing a central role. However, best practices for RL in instruction following remain underexplored. In this work, we explore the verification challenge in RL for instruction following and propose VerIF, a verification method that combines rule-based code verification with LLM-based verification from a large reasoning model (e.g., QwQ-32B). To support this approach, we construct a high-quality instruction-following dataset, VerInstruct, containing approximately 22,000 instances with associated verification signals. We apply RL training with VerIF to two models, achieving significant improvements across several representative instruction-following benchmarks. The trained models reach state-of-the-art performance among models of comparable size and generalize well to unseen constraints. We further observe that their general capabilities remain unaffected, suggesting that RL with VerIF can be integrated into existing RL recipes to enhance overall model performance. We have released our datasets, codes, and models to facilitate future research at https://github.com/THU-KEG/VerIF.