Wann können LLMs lernen, mit schwacher Überwachung zu schlussfolgern?

Zusammenfassung

Große Sprachmodelle haben bedeutende Fortschritte im logischen Denken durch Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) erzielt. Mit zunehmenden Modellfähigkeiten wird die Konstruktion hochwertiger Belohnungssignale jedoch immer schwieriger, weshalb es entscheidend ist zu verstehen, wann RLVR unter schwächeren Formen der Supervision erfolgreich sein kann. Wir führen eine systematische empirische Untersuchung über verschiedene Modellfamilien und Denkdomänen unter drei Schwach-Supervision-Szenarien durch: knappe Daten, verrauschte Belohnungen und selbstüberwachte Proxy-Belohnungen. Wir stellen fest, dass die Generalisierung von den Dynamiken der Trainingsbelohnungssättigung bestimmt wird: Modelle, die generalisieren, zeigen eine verlängerte Vor-Sättigungsphase, in der Trainingsbelohnung und Downstream-Leistung gemeinsam ansteigen, während Modelle, die schnell sättigen, eher auswendig lernen als zu verstehen. Wir identifizieren die Schlussfolgerungstreue, definiert als das Ausmaß, in dem Zwischenschritte die Endantwort logisch stützen, als die Eigenschaft vor dem RL, die vorhersagt, in welches Regime ein Modell fällt, während Output-Diversität allein nicht aussagekräftig ist. Motiviert durch diese Erkenntnisse, entwirren wir die Beiträge von kontinuierlichem Pre-Training und supervised Fine-Tuning und stellen fest, dass SFT auf expliziten Denkpfaden für Generalisierung unter schwacher Supervision notwendig ist, während kontinuierliches Pre-Training auf Domänendaten den Effekt verstärkt. Gemeinsam auf Llama3.2-3B-Base angewendet, ermöglichen diese Interventionen Generalisierung über alle drei Szenarien hinweg, in denen das Basismodell zuvor versagte.

English

Large language models have achieved significant reasoning improvements through reinforcement learning with verifiable rewards (RLVR). Yet as model capabilities grow, constructing high-quality reward signals becomes increasingly difficult, making it essential to understand when RLVR can succeed under weaker forms of supervision. We conduct a systematic empirical study across diverse model families and reasoning domains under three weak supervision settings: scarce data, noisy rewards, and self-supervised proxy rewards. We find that generalization is governed by training reward saturation dynamics: models that generalize exhibit a prolonged pre-saturation phase during which training reward and downstream performance climb together, while models that saturate rapidly memorize rather than learn. We identify reasoning faithfulness, defined as the extent to which intermediate steps logically support the final answer, as the pre-RL property that predicts which regime a model falls into, while output diversity alone is uninformative. Motivated by these findings, we disentangle the contributions of continual pre-training and supervised fine-tuning, finding that SFT on explicit reasoning traces is necessary for generalization under weak supervision, while continual pre-training on domain data amplifies the effect. Applied together to Llama3.2-3B-Base, these interventions enable generalization across all three settings where the base model previously failed.

Wann können LLMs lernen, mit schwacher Überwachung zu schlussfolgern?

When Can LLMs Learn to Reason with Weak Supervision?

Zusammenfassung

Support