Absolute Zero: Verstärktes Selbstspiel-Reasoning ohne Daten

Zusammenfassung

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat vielversprechende Ansätze gezeigt, um die Fähigkeiten großer Sprachmodelle im Bereich des logischen Denkens zu verbessern, indem direkt aus ergebnisbasierten Belohnungen gelernt wird. Aktuelle RLVR-Arbeiten, die im Null-Setting operieren, verzichten auf eine Überwachung bei der Beschriftung des Denkprozesses, sind jedoch weiterhin auf manuell kuratierte Sammlungen von Fragen und Antworten für das Training angewiesen. Die Knappheit hochwertiger, von Menschen erstellter Beispiele wirft Bedenken hinsichtlich der langfristigen Skalierbarkeit der Abhängigkeit von menschlicher Überwachung auf, eine Herausforderung, die bereits im Bereich des Vortrainierens von Sprachmodellen erkennbar ist. Darüber hinaus könnte in einer hypothetischen Zukunft, in der KI die menschliche Intelligenz übertrifft, die Bereitstellung von Aufgaben durch Menschen nur begrenztes Lernpotenzial für ein superintelligentes System bieten. Um diese Bedenken zu adressieren, schlagen wir ein neues RLVR-Paradigma namens Absolute Zero vor, bei dem ein einzelnes Modell lernt, Aufgaben vorzuschlagen, die seinen eigenen Lernfortschritt maximieren, und seine Denkfähigkeiten verbessert, indem es diese Aufgaben löst, ohne auf externe Daten angewiesen zu sein. Im Rahmen dieses Paradigmas führen wir den Absolute Zero Reasoner (AZR) ein, ein System, das sein Trainingscurriculum und seine Denkfähigkeiten selbst weiterentwickelt, indem es einen Code-Executor verwendet, um sowohl vorgeschlagene Code-Denkaufgaben zu validieren als auch Antworten zu verifizieren, und somit als einheitliche Quelle verifizierbarer Belohnung dient, um offenes und dennoch fundiertes Lernen zu leiten. Obwohl AZR vollständig ohne externe Daten trainiert wurde, erreicht es insgesamt state-of-the-art (SOTA) Leistungen bei Aufgaben zum Programmieren und mathematischen Denken und übertrifft bestehende Null-Setting-Modelle, die auf Zehntausende von domänenspezifischen, von Menschen kuratierten Beispielen angewiesen sind. Darüber hinaus zeigen wir, dass AZR effektiv auf verschiedene Modellgrößen angewendet werden kann und mit verschiedenen Modellklassen kompatibel ist.

English

Reinforcement learning with verifiable rewards (RLVR) has shown promise in enhancing the reasoning capabilities of large language models by learning directly from outcome-based rewards. Recent RLVR works that operate under the zero setting avoid supervision in labeling the reasoning process, but still depend on manually curated collections of questions and answers for training. The scarcity of high-quality, human-produced examples raises concerns about the long-term scalability of relying on human supervision, a challenge already evident in the domain of language model pretraining. Furthermore, in a hypothetical future where AI surpasses human intelligence, tasks provided by humans may offer limited learning potential for a superintelligent system. To address these concerns, we propose a new RLVR paradigm called Absolute Zero, in which a single model learns to propose tasks that maximize its own learning progress and improves reasoning by solving them, without relying on any external data. Under this paradigm, we introduce the Absolute Zero Reasoner (AZR), a system that self-evolves its training curriculum and reasoning ability by using a code executor to both validate proposed code reasoning tasks and verify answers, serving as an unified source of verifiable reward to guide open-ended yet grounded learning. Despite being trained entirely without external data, AZR achieves overall SOTA performance on coding and mathematical reasoning tasks, outperforming existing zero-setting models that rely on tens of thousands of in-domain human-curated examples. Furthermore, we demonstrate that AZR can be effectively applied across different model scales and is compatible with various model classes.

Absolute Zero: Verstärktes Selbstspiel-Reasoning ohne Daten

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Zusammenfassung

Support