Diseño de Recompensas Basado en Verosimilitud para el Razonamiento General en LLM

Resumen

El ajuste fino de modelos de lenguaje grandes (LLM) en puntos de referencia de razonamiento mediante aprendizaje por refuerzo requiere una función de recompensa específica, a menudo binaria, para cada benchmark. Esto conlleva dos limitaciones potenciales: la necesidad de diseñar la recompensa y la naturaleza potencialmente dispersa de las recompensas binarias. Aquí, investigamos sistemáticamente las recompensas derivadas de la probabilidad o log-probabilidad de emitir la respuesta de referencia (o cualquier otra continuación del prompt presente en los datos), que tienen la ventaja de no depender de verificadores específicos y estar disponibles a gran escala. Varios trabajos recientes han abogado por el uso de recompensas similares (por ejemplo, VeriFree, JEPO, RLPR, NOVER). Comparamos sistemáticamente variantes de recompensas basadas en verosimilitud con líneas de base estándar, evaluando el rendimiento tanto en puntos de referencia estándar de razonamiento matemático como en respuestas de formato largo donde no hay un verificador externo disponible. Encontramos que usar la log-probabilidad de la respuesta de referencia como recompensa para el aprendizaje de cadena de pensamiento (CoT) es la única opción que funciona bien en todas las configuraciones. Esta recompensa también es consistente con la pérdida de log-verosimilitud del siguiente token utilizada durante el preentrenamiento. En entornos verificables, las recompensas de log-probabilidad ofrecen tasas de éxito comparables o mejores que el refuerzo con recompensas binarias estándar, y producen una perplejidad mucho mejor. En entornos no verificables, su rendimiento es similar al de SFT. Por otro lado, los métodos basados en probabilidad, como VeriFree, se estancan en entornos no verificables debido a las probabilidades que se desvanecen de obtener la respuesta correcta. En general, esto establece las recompensas de log-probabilidad como un método viable para el ajuste fino de CoT, tendiendo un puente entre los entornos de respuestas cortas y verificables y los de respuestas largas y no verificables.

English

Fine-tuning large language models (LLMs) on reasoning benchmarks via reinforcement learning requires a specific reward function, often binary, for each benchmark. This comes with two potential limitations: the need to design the reward, and the potentially sparse nature of binary rewards. Here, we systematically investigate rewards derived from the probability or log-probability of emitting the reference answer (or any other prompt continuation present in the data), which have the advantage of not relying on specific verifiers and being available at scale. Several recent works have advocated for the use of similar rewards (e.g., VeriFree, JEPO, RLPR, NOVER). We systematically compare variants of likelihood-based rewards with standard baselines, testing performance both on standard mathematical reasoning benchmarks, and on long-form answers where no external verifier is available. We find that using the log-probability of the reference answer as the reward for chain-of-thought (CoT) learning is the only option that performs well in all setups. This reward is also consistent with the next-token log-likelihood loss used during pretraining. In verifiable settings, log-probability rewards bring comparable or better success rates than reinforcing with standard binary rewards, and yield much better perplexity. In non-verifiable settings, they perform on par with SFT. On the other hand, methods based on probability, such as VeriFree, flatline on non-verifiable settings due to vanishing probabilities of getting the correct answer. Overall, this establishes log-probability rewards as a viable method for CoT fine-tuning, bridging the short, verifiable and long, non-verifiable answer settings.

Diseño de Recompensas Basado en Verosimilitud para el Razonamiento General en LLM

Likelihood-Based Reward Designs for General LLM Reasoning

Resumen

Support