Wie weit kann unüberwachtes RLVR das Training von LLMs skalieren?

Zusammenfassung

Unüberwachtes Reinforcement Learning mit verifizierbaren Belohnungen (URLVR) bietet einen Weg, das LLM-Training über den Engpass der Überwachung hinaus zu skalieren, indem Belohnungen ohne Ground-Truth-Labels abgeleitet werden. Jüngste Arbeiten nutzen modellinterne Signale und zeigen vielversprechende frühe Erfolge, doch ihr Potenzial und ihre Grenzen sind noch unklar. In dieser Arbeit untersuchen wir URLVR neu und liefern eine umfassende Analyse, die Taxonomie, Theorie und umfangreiche Experimente umfasst. Wir klassifizieren URLVR-Methoden zunächst basierend auf den Belohnungsquellen in intrinsische und externe Methoden und stellen dann einen einheitlichen theoretischen Rahmen auf, der zeigt, dass alle intrinsischen Methoden darauf konvergieren, die anfängliche Verteilung des Modells zu verschärfen. Dieser Schärfungsmechanismus ist erfolgreich, wenn die anfängliche Konfidenz mit der Korrektheit übereinstimmt, scheitert jedoch katastrophal bei Nichtübereinstimmung. Durch systematische Experimente zeigen wir, dass intrinsische Belohnungen über verschiedene Methoden hinweg konsistent einem Anstieg-gefolgt-von-Abfall-Muster folgen, wobei der Zeitpunkt des Kollapses durch die Modellpräferenz und nicht durch technische Entscheidungen bestimmt wird. Trotz dieser Skalierungsgrenzen bleiben intrinsische Belohnungen bei Test-Time-Training auf kleinen Datensätzen wertvoll, und wir schlagen den "Model Collapse Step" vor, um die Modellpräferenz zu messen, was als praktischer Indikator für die Trainierbarkeit mittels RL dient. Schließlich untersuchen wir externe Belohnungsmethoden, die die Verifikation in rechnerischen Asymmetrien verankern, und zeigen erste Hinweise darauf, dass sie die Konfidenz-Korrektheit-Grenze überwinden könnten. Unsere Ergebnisse skizzieren die Grenzen intrinsischer URLVR-Methoden und liefern gleichzeitig Ansätze für skalierbare Alternativen.

English

Unsupervised reinforcement learning with verifiable rewards (URLVR) offers a pathway to scale LLM training beyond the supervision bottleneck by deriving rewards without ground truth labels. Recent works leverage model intrinsic signals, showing promising early gains, yet their potential and limitations remain unclear. In this work, we revisit URLVR and provide a comprehensive analysis spanning taxonomy, theory and extensive experiments. We first classify URLVR methods into intrinsic versus external based on reward sources, then establish a unified theoretical framework revealing that all intrinsic methods converge toward sharpening the model's initial distribution This sharpening mechanism succeeds when initial confidence aligns with correctness but fails catastrophically when misaligned. Through systematic experiments, we show intrinsic rewards consistently follow a rise-then-fall pattern across methods, with collapse timing determined by model prior rather than engineering choices. Despite these scaling limits, we find intrinsic rewards remain valuable in test-time training on small datasets, and propose Model Collapse Step to measure model prior, serving as a practical indicator for RL trainability. Finally, we explore external reward methods that ground verification in computational asymmetries, showing preliminary evidence they may escape the confidence-correctness ceiling. Our findings chart boundaries for intrinsic URLVR while motivating paths toward scalable alternatives.

Wie weit kann unüberwachtes RLVR das Training von LLMs skalieren?

How Far Can Unsupervised RLVR Scale LLM Training?

Zusammenfassung

Support