RLAD: Entrenamiento de LLM para Descubrir Abstracciones en la Resolución de Problemas de Razonamiento

Resumen

El razonamiento requiere ir más allá de la coincidencia de patrones o la memorización de soluciones para identificar e implementar "procedimientos algorítmicos" que puedan utilizarse para deducir respuestas a problemas complejos. Para lograrlo, es necesario identificar los elementos primitivos, resultados intermedios o procedimientos compartidos más relevantes y construir sobre ellos. Si bien el entrenamiento posterior de aprendizaje por refuerzo (RL) en cadenas largas de pensamiento tiene como objetivo descubrir este tipo de comportamiento algorítmico, la mayoría de los rastros de razonamiento aprendidos por modelos grandes no logran capturar o reutilizar procedimientos de manera consistente, derivando en una exploración verbosa y degenerada. Para abordar un razonamiento más efectivo, introducimos abstracciones de razonamiento: descripciones concisas en lenguaje natural de conocimiento procedimental y factual que guían al modelo hacia el aprendizaje de un razonamiento exitoso. Entrenamos modelos para que sean capaces de proponer múltiples abstracciones dado un problema, seguido de RL que incentiva la construcción de una solución utilizando la información proporcionada por estas abstracciones. Esto da lugar a un paradigma de entrenamiento RL de dos jugadores, abreviado como RLAD, que entrena conjuntamente un generador de abstracciones y un generador de soluciones. Esta configuración permite de manera efectiva una exploración estructurada, desacopla las señales de aprendizaje de la propuesta de abstracción y la generación de soluciones, y mejora la generalización a problemas más difíciles. También demostramos que asignar más recursos computacionales en tiempo de prueba a la generación de abstracciones es más beneficioso para el rendimiento que generar más soluciones con grandes presupuestos de prueba, ilustrando el papel de las abstracciones en la guía de una exploración significativa.

English

Reasoning requires going beyond pattern matching or memorization of solutions to identify and implement "algorithmic procedures" that can be used to deduce answers to hard problems. Doing so requires realizing the most relevant primitives, intermediate results, or shared procedures, and building upon them. While RL post-training on long chains of thought ultimately aims to uncover this kind of algorithmic behavior, most reasoning traces learned by large models fail to consistently capture or reuse procedures, instead drifting into verbose and degenerate exploration. To address more effective reasoning, we introduce reasoning abstractions: concise natural language descriptions of procedural and factual knowledge that guide the model toward learning successful reasoning. We train models to be capable of proposing multiple abstractions given a problem, followed by RL that incentivizes building a solution while using the information provided by these abstractions. This results in a two-player RL training paradigm, abbreviated as RLAD, that jointly trains an abstraction generator and a solution generator. This setup effectively enables structured exploration, decouples learning signals of abstraction proposal and solution generation, and improves generalization to harder problems. We also show that allocating more test-time compute to generating abstractions is more beneficial for performance than generating more solutions at large test budgets, illustrating the role of abstractions in guiding meaningful exploration.