Quand les LLM peuvent-ils apprendre à raisonner avec un apprentissage faiblement supervisé ?

Résumé

Les grands modèles de langage ont réalisé des progrès significatifs en raisonnement grâce à l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Cependant, à mesure que les capacités des modèles augmentent, la construction de signaux de récompense de haute qualité devient de plus en plus difficile, rendant essentielle la compréhension des conditions de succès du RLVR sous des formes de supervision plus faibles. Nous menons une étude empirique systématique couvrant diverses familles de modèles et domaines de raisonnement sous trois régimes de supervision faible : données rares, récompenses bruitées et récompenses proxies auto-supervisées. Nous constatons que la généralisation est régie par la dynamique de saturation de la récompense d'entraînement : les modèles qui généralisent présentent une phase pré-saturation prolongée durant laquelle la récompense d'entraînement et les performances en aval progressent conjointement, tandis que les modèles qui se saturent rapidement mémorisent plutôt qu'ils n'apprennent. Nous identifions la fidélité du raisonnement, définie comme la mesure dans laquelle les étapes intermédiaires étayent logiquement la réponse finale, comme la propriété pré-RL qui prédit le régime dans lequel un modèle se situe, alors que la diversité des sorties seule n'est pas informative. Motivés par ces résultats, nous démêlons les contributions du pré-entraînement continu et du fine-tuning supervisé, constatant que le SFT sur des traces de raisonnement explicites est nécessaire pour la généralisation sous supervision faible, tandis que le pré-entraînement continu sur des données du domaine amplifie l'effet. Appliquées conjointement à Llama3.2-3B-Base, ces interventions permettent une généralisation dans les trois scénarios où le modèle de base échouait précédemment.

English

Large language models have achieved significant reasoning improvements through reinforcement learning with verifiable rewards (RLVR). Yet as model capabilities grow, constructing high-quality reward signals becomes increasingly difficult, making it essential to understand when RLVR can succeed under weaker forms of supervision. We conduct a systematic empirical study across diverse model families and reasoning domains under three weak supervision settings: scarce data, noisy rewards, and self-supervised proxy rewards. We find that generalization is governed by training reward saturation dynamics: models that generalize exhibit a prolonged pre-saturation phase during which training reward and downstream performance climb together, while models that saturate rapidly memorize rather than learn. We identify reasoning faithfulness, defined as the extent to which intermediate steps logically support the final answer, as the pre-RL property that predicts which regime a model falls into, while output diversity alone is uninformative. Motivated by these findings, we disentangle the contributions of continual pre-training and supervised fine-tuning, finding that SFT on explicit reasoning traces is necessary for generalization under weak supervision, while continual pre-training on domain data amplifies the effect. Applied together to Llama3.2-3B-Base, these interventions enable generalization across all three settings where the base model previously failed.

Quand les LLM peuvent-ils apprendre à raisonner avec un apprentissage faiblement supervisé ?

When Can LLMs Learn to Reason with Weak Supervision?

Résumé

Support