Absolute Zero: Verstärktes Selbstspiel-Reasoning ohne Daten
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
May 6, 2025
Autoren: Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang
cs.AI
Zusammenfassung
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat vielversprechende Ansätze gezeigt, um die Fähigkeiten großer Sprachmodelle im Bereich des logischen Denkens zu verbessern, indem direkt aus ergebnisbasierten Belohnungen gelernt wird. Aktuelle RLVR-Arbeiten, die im Null-Setting operieren, verzichten auf eine Überwachung bei der Beschriftung des Denkprozesses, sind jedoch weiterhin auf manuell kuratierte Sammlungen von Fragen und Antworten für das Training angewiesen. Die Knappheit hochwertiger, von Menschen erstellter Beispiele wirft Bedenken hinsichtlich der langfristigen Skalierbarkeit der Abhängigkeit von menschlicher Überwachung auf, eine Herausforderung, die bereits im Bereich des Vortrainierens von Sprachmodellen erkennbar ist. Darüber hinaus könnte in einer hypothetischen Zukunft, in der KI die menschliche Intelligenz übertrifft, die Bereitstellung von Aufgaben durch Menschen nur begrenztes Lernpotenzial für ein superintelligentes System bieten. Um diese Bedenken zu adressieren, schlagen wir ein neues RLVR-Paradigma namens Absolute Zero vor, bei dem ein einzelnes Modell lernt, Aufgaben vorzuschlagen, die seinen eigenen Lernfortschritt maximieren, und seine Denkfähigkeiten verbessert, indem es diese Aufgaben löst, ohne auf externe Daten angewiesen zu sein. Im Rahmen dieses Paradigmas führen wir den Absolute Zero Reasoner (AZR) ein, ein System, das sein Trainingscurriculum und seine Denkfähigkeiten selbst weiterentwickelt, indem es einen Code-Executor verwendet, um sowohl vorgeschlagene Code-Denkaufgaben zu validieren als auch Antworten zu verifizieren, und somit als einheitliche Quelle verifizierbarer Belohnung dient, um offenes und dennoch fundiertes Lernen zu leiten. Obwohl AZR vollständig ohne externe Daten trainiert wurde, erreicht es insgesamt state-of-the-art (SOTA) Leistungen bei Aufgaben zum Programmieren und mathematischen Denken und übertrifft bestehende Null-Setting-Modelle, die auf Zehntausende von domänenspezifischen, von Menschen kuratierten Beispielen angewiesen sind. Darüber hinaus zeigen wir, dass AZR effektiv auf verschiedene Modellgrößen angewendet werden kann und mit verschiedenen Modellklassen kompatibel ist.
English
Reinforcement learning with verifiable rewards (RLVR) has shown promise in
enhancing the reasoning capabilities of large language models by learning
directly from outcome-based rewards. Recent RLVR works that operate under the
zero setting avoid supervision in labeling the reasoning process, but still
depend on manually curated collections of questions and answers for training.
The scarcity of high-quality, human-produced examples raises concerns about the
long-term scalability of relying on human supervision, a challenge already
evident in the domain of language model pretraining. Furthermore, in a
hypothetical future where AI surpasses human intelligence, tasks provided by
humans may offer limited learning potential for a superintelligent system. To
address these concerns, we propose a new RLVR paradigm called Absolute Zero, in
which a single model learns to propose tasks that maximize its own learning
progress and improves reasoning by solving them, without relying on any
external data. Under this paradigm, we introduce the Absolute Zero Reasoner
(AZR), a system that self-evolves its training curriculum and reasoning ability
by using a code executor to both validate proposed code reasoning tasks and
verify answers, serving as an unified source of verifiable reward to guide
open-ended yet grounded learning. Despite being trained entirely without
external data, AZR achieves overall SOTA performance on coding and mathematical
reasoning tasks, outperforming existing zero-setting models that rely on tens
of thousands of in-domain human-curated examples. Furthermore, we demonstrate
that AZR can be effectively applied across different model scales and is
compatible with various model classes.Summary
AI-Generated Summary