Wanneer kunnen LLM's leren redeneren met zwakke supervisie?

Samenvatting

Grote taalmodellen hebben aanzienlijke verbeteringen in redeneervaardigheid bereikt door reinforcement learning met verifieerbare beloningen (RLVR). Naarmate de capaciteiten van modellen echter groeien, wordt het construeren van hoogwaardige beloningssignalen steeds moeilijker, waardoor het essentieel is te begrijpen wanneer RLVR kan slagen onder zwakkere vormen van supervisie. Wij voeren een systematische empirische studie uit over diverse modelfamilies en redeneerdomeinen onder drie zwakke supervisie-omstandigheden: schaarse data, ruisbeloningen en zelfgesuperviseerde proxy-beloningen. Wij constateren dat generalisatie wordt bepaald door dynamieken van beloningsverzadiging tijdens training: modellen die generaliseren vertonen een langdurige pre-verzadigingsfase waarin trainingsbeloning en downstream-prestatie samen stijgen, terwijl modellen die snel verzadigen eerder memoriseren dan leren. Wij identificeren redeneergetrouwheid, gedefinieerd als de mate waarin tussenstappen de eindantwoord logisch ondersteunen, als de pre-RL-eigenschap die voorspelt in welk regime een model valt, terwijl outputdiversiteit alleen geen informatie geeft. Gemotiveerd door deze bevindingen, ontwarren wij de bijdragen van voortgezette pre-training en supervised fine-tuning, en concluderen dat SFT op expliciete redeneersporen noodzakelijk is voor generalisatie onder zwakke supervisie, terwijl voortgezette pre-training op domeindata het effect versterkt. Toegepast op Llama3.2-3B-Base stellen deze interventies generalisatie mogelijk in alle drie de settings waar het basismodel voorheen faalde.

English

Large language models have achieved significant reasoning improvements through reinforcement learning with verifiable rewards (RLVR). Yet as model capabilities grow, constructing high-quality reward signals becomes increasingly difficult, making it essential to understand when RLVR can succeed under weaker forms of supervision. We conduct a systematic empirical study across diverse model families and reasoning domains under three weak supervision settings: scarce data, noisy rewards, and self-supervised proxy rewards. We find that generalization is governed by training reward saturation dynamics: models that generalize exhibit a prolonged pre-saturation phase during which training reward and downstream performance climb together, while models that saturate rapidly memorize rather than learn. We identify reasoning faithfulness, defined as the extent to which intermediate steps logically support the final answer, as the pre-RL property that predicts which regime a model falls into, while output diversity alone is uninformative. Motivated by these findings, we disentangle the contributions of continual pre-training and supervised fine-tuning, finding that SFT on explicit reasoning traces is necessary for generalization under weak supervision, while continual pre-training on domain data amplifies the effect. Applied together to Llama3.2-3B-Base, these interventions enable generalization across all three settings where the base model previously failed.

Wanneer kunnen LLM's leren redeneren met zwakke supervisie?

When Can LLMs Learn to Reason with Weak Supervision?

Samenvatting

Support