¿Cuándo pueden los LLMs aprender a razonar con supervisión débil?

Resumen

Los modelos de lenguaje a gran escala han logrado mejoras significativas en el razonamiento mediante el aprendizaje por refuerzo con recompensas verificables (RLVR). Sin embargo, a medida que crecen las capacidades de los modelos, construir señales de recompensa de alta calidad se vuelve cada vez más difícil, lo que hace esencial comprender cuándo el RLVR puede tener éxito bajo formas más débiles de supervisión. Realizamos un estudio empírico sistemático en diversas familias de modelos y dominios de razonamiento bajo tres configuraciones de supervisión débil: datos escasos, recompensas ruidosas y recompensas proxy auto-supervisadas. Descubrimos que la generalización está gobernada por la dinámica de saturación de la recompensa durante el entrenamiento: los modelos que generalizan exhiben una fase pre-saturación prolongada durante la cual la recompensa de entrenamiento y el rendimiento en tareas posteriores aumentan conjuntamente, mientras que los modelos que se saturan rápidamente memorizan en lugar de aprender. Identificamos la fidelidad del razonamiento, definida como el grado en que los pasos intermedios apoyan lógicamente la respuesta final, como la propiedad pre-RL que predice en qué régimen cae un modelo, mientras que la diversidad de las salidas por sí sola no es informativa. Motivados por estos hallazgos, desentrañamos las contribuciones del pre-entrenamiento continuo y del ajuste fino supervisado (SFT), encontrando que el SFT en trazas de razonamiento explícitas es necesario para la generalización bajo supervisión débil, mientras que el pre-entrenamiento continuo en datos del dominio amplifica el efecto. Aplicadas conjuntamente a Llama3.2-3B-Base, estas intervenciones permiten la generalización en las tres configuraciones donde el modelo base previamente fallaba.

English

Large language models have achieved significant reasoning improvements through reinforcement learning with verifiable rewards (RLVR). Yet as model capabilities grow, constructing high-quality reward signals becomes increasingly difficult, making it essential to understand when RLVR can succeed under weaker forms of supervision. We conduct a systematic empirical study across diverse model families and reasoning domains under three weak supervision settings: scarce data, noisy rewards, and self-supervised proxy rewards. We find that generalization is governed by training reward saturation dynamics: models that generalize exhibit a prolonged pre-saturation phase during which training reward and downstream performance climb together, while models that saturate rapidly memorize rather than learn. We identify reasoning faithfulness, defined as the extent to which intermediate steps logically support the final answer, as the pre-RL property that predicts which regime a model falls into, while output diversity alone is uninformative. Motivated by these findings, we disentangle the contributions of continual pre-training and supervised fine-tuning, finding that SFT on explicit reasoning traces is necessary for generalization under weak supervision, while continual pre-training on domain data amplifies the effect. Applied together to Llama3.2-3B-Base, these interventions enable generalization across all three settings where the base model previously failed.

¿Cuándo pueden los LLMs aprender a razonar con supervisión débil?

When Can LLMs Learn to Reason with Weak Supervision?

Resumen

Support