Quando i LLM Possono Imparare a Ragionare con Supervisione Debole?

Abstract

I grandi modelli linguistici hanno ottenuto significativi miglioramenti nel ragionamento attraverso l'apprendimento per rinforzo con ricompense verificabili (RLVR). Tuttavia, con la crescita delle capacità dei modelli, la costruzione di segnali di ricompensa di alta qualità diventa sempre più difficile, rendendo essenziale comprendere quando l'RLVR può avere successo sotto forme più deboli di supervisione. Conduciamo uno studio empirico sistematico su diverse famiglie di modelli e domini di ragionamento in tre contesti di supervisione debole: dati scarsi, ricompense rumorose e ricompense proxy auto-supervisionate. Scopriamo che la generalizzazione è governata dalla dinamica di saturazione della ricompensa durante l'addestramento: i modelli che generalizzano mostrano una fase pre-saturazione prolungata durante la quale la ricompensa di addestramento e le prestazioni su compiti successivi crescono insieme, mentre i modelli che si saturano rapidamente memorizzano piuttosto che apprendere. Identifichiamo la fedeltà del ragionamento, definita come la misura in cui i passaggi intermedi supportano logicamente la risposta finale, come la proprietà pre-RL che predice in quale regime cade un modello, mentre la sola diversità degli output non è informativa. Motivati da questi risultati, separiamo i contributi del pre-addestramento continuo e della messa a punto supervisionata, scoprendo che la SFT su tracce di ragionamento esplicite è necessaria per la generalizzazione sotto supervisione debole, mentre il pre-addestramento continuo sui dati di dominio amplifica l'effetto. Applicate insieme a Llama3.2-3B-Base, queste strategie abilitano la generalizzazione in tutti e tre i contesti in cui il modello base precedentemente falliva.

English

Large language models have achieved significant reasoning improvements through reinforcement learning with verifiable rewards (RLVR). Yet as model capabilities grow, constructing high-quality reward signals becomes increasingly difficult, making it essential to understand when RLVR can succeed under weaker forms of supervision. We conduct a systematic empirical study across diverse model families and reasoning domains under three weak supervision settings: scarce data, noisy rewards, and self-supervised proxy rewards. We find that generalization is governed by training reward saturation dynamics: models that generalize exhibit a prolonged pre-saturation phase during which training reward and downstream performance climb together, while models that saturate rapidly memorize rather than learn. We identify reasoning faithfulness, defined as the extent to which intermediate steps logically support the final answer, as the pre-RL property that predicts which regime a model falls into, while output diversity alone is uninformative. Motivated by these findings, we disentangle the contributions of continual pre-training and supervised fine-tuning, finding that SFT on explicit reasoning traces is necessary for generalization under weak supervision, while continual pre-training on domain data amplifies the effect. Applied together to Llama3.2-3B-Base, these interventions enable generalization across all three settings where the base model previously failed.

Quando i LLM Possono Imparare a Ragionare con Supervisione Debole?

When Can LLMs Learn to Reason with Weak Supervision?

Abstract

Support