VerIF: Engenharia de Verificação para Aprendizagem por Reforço em Seguimento de Instruções
VerIF: Verification Engineering for Reinforcement Learning in Instruction Following
June 11, 2025
Autores: Hao Peng, Yunjia Qi, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li
cs.AI
Resumo
O aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se uma técnica fundamental para aprimorar modelos de linguagem de grande escala (LLMs), com a engenharia de verificação desempenhando um papel central. No entanto, as melhores práticas para RL no seguimento de instruções ainda são pouco exploradas. Neste trabalho, investigamos o desafio de verificação no RL para o seguimento de instruções e propomos o VerIF, um método de verificação que combina a verificação de código baseada em regras com a verificação baseada em LLM a partir de um modelo de raciocínio de grande escala (por exemplo, QwQ-32B). Para apoiar essa abordagem, construímos um conjunto de dados de alta qualidade para o seguimento de instruções, o VerInstruct, contendo aproximadamente 22.000 instâncias com sinais de verificação associados. Aplicamos o treinamento de RL com VerIF a dois modelos, alcançando melhorias significativas em vários benchmarks representativos de seguimento de instruções. Os modelos treinados atingem desempenho de ponta entre modelos de tamanho comparável e generalizam bem para restrições não vistas. Além disso, observamos que suas capacidades gerais permanecem inalteradas, sugerindo que o RL com VerIF pode ser integrado às receitas existentes de RL para melhorar o desempenho geral do modelo. Disponibilizamos nossos conjuntos de dados, códigos e modelos para facilitar pesquisas futuras em https://github.com/THU-KEG/VerIF.
English
Reinforcement learning with verifiable rewards (RLVR) has become a key
technique for enhancing large language models (LLMs), with verification
engineering playing a central role. However, best practices for RL in
instruction following remain underexplored. In this work, we explore the
verification challenge in RL for instruction following and propose VerIF, a
verification method that combines rule-based code verification with LLM-based
verification from a large reasoning model (e.g., QwQ-32B). To support this
approach, we construct a high-quality instruction-following dataset,
VerInstruct, containing approximately 22,000 instances with associated
verification signals. We apply RL training with VerIF to two models, achieving
significant improvements across several representative instruction-following
benchmarks. The trained models reach state-of-the-art performance among models
of comparable size and generalize well to unseen constraints. We further
observe that their general capabilities remain unaffected, suggesting that RL
with VerIF can be integrated into existing RL recipes to enhance overall model
performance. We have released our datasets, codes, and models to facilitate
future research at https://github.com/THU-KEG/VerIF.