VerIF: Engenharia de Verificação para Aprendizagem por Reforço em Seguimento de Instruções

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se uma técnica fundamental para aprimorar modelos de linguagem de grande escala (LLMs), com a engenharia de verificação desempenhando um papel central. No entanto, as melhores práticas para RL no seguimento de instruções ainda são pouco exploradas. Neste trabalho, investigamos o desafio de verificação no RL para o seguimento de instruções e propomos o VerIF, um método de verificação que combina a verificação de código baseada em regras com a verificação baseada em LLM a partir de um modelo de raciocínio de grande escala (por exemplo, QwQ-32B). Para apoiar essa abordagem, construímos um conjunto de dados de alta qualidade para o seguimento de instruções, o VerInstruct, contendo aproximadamente 22.000 instâncias com sinais de verificação associados. Aplicamos o treinamento de RL com VerIF a dois modelos, alcançando melhorias significativas em vários benchmarks representativos de seguimento de instruções. Os modelos treinados atingem desempenho de ponta entre modelos de tamanho comparável e generalizam bem para restrições não vistas. Além disso, observamos que suas capacidades gerais permanecem inalteradas, sugerindo que o RL com VerIF pode ser integrado às receitas existentes de RL para melhorar o desempenho geral do modelo. Disponibilizamos nossos conjuntos de dados, códigos e modelos para facilitar pesquisas futuras em https://github.com/THU-KEG/VerIF.

English

Reinforcement learning with verifiable rewards (RLVR) has become a key technique for enhancing large language models (LLMs), with verification engineering playing a central role. However, best practices for RL in instruction following remain underexplored. In this work, we explore the verification challenge in RL for instruction following and propose VerIF, a verification method that combines rule-based code verification with LLM-based verification from a large reasoning model (e.g., QwQ-32B). To support this approach, we construct a high-quality instruction-following dataset, VerInstruct, containing approximately 22,000 instances with associated verification signals. We apply RL training with VerIF to two models, achieving significant improvements across several representative instruction-following benchmarks. The trained models reach state-of-the-art performance among models of comparable size and generalize well to unseen constraints. We further observe that their general capabilities remain unaffected, suggesting that RL with VerIF can be integrated into existing RL recipes to enhance overall model performance. We have released our datasets, codes, and models to facilitate future research at https://github.com/THU-KEG/VerIF.

VerIF: Engenharia de Verificação para Aprendizagem por Reforço em Seguimento de Instruções

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following

Resumo

Support