NOVER: Entrenamiento Incentivado para Modelos de Lenguaje mediante Aprendizaje por Refuerzo sin Verificador
NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning
May 21, 2025
Autores: Wei Liu, Siya Qi, Xinyu Wang, Chen Qian, Yali Du, Yulan He
cs.AI
Resumen
Los avances recientes, como DeepSeek R1-Zero, destacan la efectividad del entrenamiento por incentivos, un paradigma de aprendizaje por refuerzo que calcula las recompensas únicamente en función de la parte de la respuesta final en la salida de un modelo de lenguaje, fomentando así la generación de pasos de razonamiento intermedios. Sin embargo, estos métodos dependen fundamentalmente de verificadores externos, lo que limita su aplicabilidad a dominios como las matemáticas y la programación, donde dichos verificadores están fácilmente disponibles. Aunque los modelos de recompensa pueden funcionar como verificadores, requieren datos anotados de alta calidad y son costosos de entrenar. En este trabajo, proponemos NOVER, Aprendizaje por Refuerzo SIN VERificador, un marco general de aprendizaje por refuerzo que solo requiere datos estándar de ajuste fino supervisado, sin necesidad de un verificador externo. NOVER permite el entrenamiento por incentivos en una amplia gama de tareas de texto a texto y supera al modelo del mismo tamaño destilado de grandes modelos de razonamiento, como DeepSeek R1 671B, en un 7.7 por ciento. Además, la flexibilidad de NOVER abre nuevas posibilidades para optimizar modelos de lenguaje grandes, como el entrenamiento por incentivos inversos.
English
Recent advances such as DeepSeek R1-Zero highlight the effectiveness of
incentive training, a reinforcement learning paradigm that computes rewards
solely based on the final answer part of a language model's output, thereby
encouraging the generation of intermediate reasoning steps. However, these
methods fundamentally rely on external verifiers, which limits their
applicability to domains like mathematics and coding where such verifiers are
readily available. Although reward models can serve as verifiers, they require
high-quality annotated data and are costly to train. In this work, we propose
NOVER, NO-VERifier Reinforcement Learning, a general reinforcement learning
framework that requires only standard supervised fine-tuning data with no need
for an external verifier. NOVER enables incentive training across a wide range
of text-to-text tasks and outperforms the model of the same size distilled from
large reasoning models such as DeepSeek R1 671B by 7.7 percent. Moreover, the
flexibility of NOVER enables new possibilities for optimizing large language
models, such as inverse incentive training.Summary
AI-Generated Summary