¿Hasta Dónde Puede Escalar el Aprendizaje por Refuerzo No Supervisado con Retroalimentación de Valor (RLVR) el Entrenamiento de Modelos de Lenguaje Grande (LLM)?

Resumen

El aprendizaje por refuerzo no supervisado con recompensas verificables (URLVR, por sus siglas en inglés) ofrece un camino para escalar el entrenamiento de modelos de lenguaje más allá del cuello de botella de la supervisión, derivando recompensas sin etiquetas de verdad fundamental. Trabajos recientes aprovechan señales intrínsecas del modelo, mostrando avances iniciales prometedores, aunque su potencial y limitaciones siguen sin estar claros. En este trabajo, revisitamos el URLVR y proporcionamos un análisis exhaustivo que abarca taxonomía, teoría y experimentos extensos. Primero clasificamos los métodos URLVR en intrínsecos versus externos según la fuente de la recompensa, luego establecemos un marco teórico unificado que revela que todos los métodos intrínsecos convergen hacia un afianzamiento de la distribución inicial del modelo. Este mecanismo de afianzamiento tiene éxito cuando la confianza inicial se alinea con la corrección, pero falla catastróficamente cuando no hay alineación. Mediante experimentos sistemáticos, mostramos que las recompensas intrínsecas siguen consistentemente un patrón de subida y posterior caída en todos los métodos, estando el momento del colapso determinado por la predisposición del modelo y no por elecciones de ingeniería. A pesar de estos límites de escalabilidad, encontramos que las recompensas intrínsecas siguen siendo valiosas en el entrenamiento en tiempo de prueba con conjuntos de datos pequeños, y proponemos el "Paso de Colapso del Modelo" para medir la predisposición del modelo, sirviendo como un indicador práctico de la capacidad de entrenamiento por refuerzo. Finalmente, exploramos métodos de recompensa externa que fundamentan la verificación en asimetrías computacionales, mostrando evidencia preliminar de que podrían superar el techo de confianza-corrección. Nuestros hallazgos trazan los límites del URLVR intrínseco a la vez que motivan caminos hacia alternativas escalables.

English

Unsupervised reinforcement learning with verifiable rewards (URLVR) offers a pathway to scale LLM training beyond the supervision bottleneck by deriving rewards without ground truth labels. Recent works leverage model intrinsic signals, showing promising early gains, yet their potential and limitations remain unclear. In this work, we revisit URLVR and provide a comprehensive analysis spanning taxonomy, theory and extensive experiments. We first classify URLVR methods into intrinsic versus external based on reward sources, then establish a unified theoretical framework revealing that all intrinsic methods converge toward sharpening the model's initial distribution This sharpening mechanism succeeds when initial confidence aligns with correctness but fails catastrophically when misaligned. Through systematic experiments, we show intrinsic rewards consistently follow a rise-then-fall pattern across methods, with collapse timing determined by model prior rather than engineering choices. Despite these scaling limits, we find intrinsic rewards remain valuable in test-time training on small datasets, and propose Model Collapse Step to measure model prior, serving as a practical indicator for RL trainability. Finally, we explore external reward methods that ground verification in computational asymmetries, showing preliminary evidence they may escape the confidence-correctness ceiling. Our findings chart boundaries for intrinsic URLVR while motivating paths toward scalable alternatives.

¿Hasta Dónde Puede Escalar el Aprendizaje por Refuerzo No Supervisado con Retroalimentación de Valor (RLVR) el Entrenamiento de Modelos de Lenguaje Grande (LLM)?

How Far Can Unsupervised RLVR Scale LLM Training?

Resumen

Support