ChatPaper.aiChatPaper

NOVER: Treinamento Incentivado para Modelos de Linguagem via Aprendizado por Reforço Sem Verificador

NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning

May 21, 2025
Autores: Wei Liu, Siya Qi, Xinyu Wang, Chen Qian, Yali Du, Yulan He
cs.AI

Resumo

Avanços recentes, como o DeepSeek R1-Zero, destacam a eficácia do treinamento por incentivo, um paradigma de aprendizado por reforço que calcula recompensas com base apenas na parte final da resposta gerada por um modelo de linguagem, incentivando assim a geração de etapas intermediárias de raciocínio. No entanto, esses métodos dependem fundamentalmente de verificadores externos, o que limita sua aplicabilidade a domínios como matemática e programação, onde tais verificadores estão prontamente disponíveis. Embora modelos de recompensa possam atuar como verificadores, eles exigem dados anotados de alta qualidade e são custosos para treinar. Neste trabalho, propomos o NOVER, NO-VERifier Reinforcement Learning, um framework geral de aprendizado por reforço que requer apenas dados padrão de ajuste fino supervisionado, sem a necessidade de um verificador externo. O NOVER permite o treinamento por incentivo em uma ampla gama de tarefas de texto para texto e supera o modelo de mesmo tamanho destilado de grandes modelos de raciocínio, como o DeepSeek R1 671B, em 7,7%. Além disso, a flexibilidade do NOVER abre novas possibilidades para a otimização de grandes modelos de linguagem, como o treinamento por incentivo inverso.
English
Recent advances such as DeepSeek R1-Zero highlight the effectiveness of incentive training, a reinforcement learning paradigm that computes rewards solely based on the final answer part of a language model's output, thereby encouraging the generation of intermediate reasoning steps. However, these methods fundamentally rely on external verifiers, which limits their applicability to domains like mathematics and coding where such verifiers are readily available. Although reward models can serve as verifiers, they require high-quality annotated data and are costly to train. In this work, we propose NOVER, NO-VERifier Reinforcement Learning, a general reinforcement learning framework that requires only standard supervised fine-tuning data with no need for an external verifier. NOVER enables incentive training across a wide range of text-to-text tasks and outperforms the model of the same size distilled from large reasoning models such as DeepSeek R1 671B by 7.7 percent. Moreover, the flexibility of NOVER enables new possibilities for optimizing large language models, such as inverse incentive training.
PDF35May 26, 2025