Absolute Zero : Raisonnement par auto-apprentissage renforcé sans données initiales
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
May 6, 2025
Auteurs: Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang
cs.AI
Résumé
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a montré des résultats prometteurs pour améliorer les capacités de raisonnement des grands modèles de langage en apprenant directement à partir de récompenses basées sur les résultats. Les travaux récents en RLVR opérant dans un cadre zéro évitent la supervision dans l'étiquetage du processus de raisonnement, mais dépendent toujours de collections de questions et réponses soigneusement préparées par des humains pour l'entraînement. La rareté d'exemples de haute qualité produits par des humains soulève des inquiétudes quant à l'évolutivité à long terme de la dépendance à la supervision humaine, un défi déjà apparent dans le domaine du pré-entraînement des modèles de langage. De plus, dans un futur hypothétique où l'IA surpasserait l'intelligence humaine, les tâches fournies par les humains pourraient offrir un potentiel d'apprentissage limité pour un système superintelligent. Pour répondre à ces préoccupations, nous proposons un nouveau paradigme RLVR appelé Absolute Zero, dans lequel un seul modèle apprend à proposer des tâches qui maximisent ses propres progrès d'apprentissage et améliore son raisonnement en les résolvant, sans s'appuyer sur aucune donnée externe. Dans ce cadre, nous introduisons l'Absolute Zero Reasoner (AZR), un système qui auto-évolue son programme d'entraînement et ses capacités de raisonnement en utilisant un exécuteur de code pour valider les tâches de raisonnement en code proposées et vérifier les réponses, servant ainsi de source unifiée de récompense vérifiable pour guider un apprentissage ouvert mais ancré. Bien qu'entraîné entièrement sans données externes, AZR atteint des performances globales de pointe sur des tâches de raisonnement en programmation et en mathématiques, surpassant les modèles existants en cadre zéro qui s'appuient sur des dizaines de milliers d'exemples humains soigneusement sélectionnés dans le domaine. De plus, nous démontrons qu'AZR peut être efficacement appliqué à différentes échelles de modèles et est compatible avec diverses classes de modèles.
English
Reinforcement learning with verifiable rewards (RLVR) has shown promise in
enhancing the reasoning capabilities of large language models by learning
directly from outcome-based rewards. Recent RLVR works that operate under the
zero setting avoid supervision in labeling the reasoning process, but still
depend on manually curated collections of questions and answers for training.
The scarcity of high-quality, human-produced examples raises concerns about the
long-term scalability of relying on human supervision, a challenge already
evident in the domain of language model pretraining. Furthermore, in a
hypothetical future where AI surpasses human intelligence, tasks provided by
humans may offer limited learning potential for a superintelligent system. To
address these concerns, we propose a new RLVR paradigm called Absolute Zero, in
which a single model learns to propose tasks that maximize its own learning
progress and improves reasoning by solving them, without relying on any
external data. Under this paradigm, we introduce the Absolute Zero Reasoner
(AZR), a system that self-evolves its training curriculum and reasoning ability
by using a code executor to both validate proposed code reasoning tasks and
verify answers, serving as an unified source of verifiable reward to guide
open-ended yet grounded learning. Despite being trained entirely without
external data, AZR achieves overall SOTA performance on coding and mathematical
reasoning tasks, outperforming existing zero-setting models that rely on tens
of thousands of in-domain human-curated examples. Furthermore, we demonstrate
that AZR can be effectively applied across different model scales and is
compatible with various model classes.Summary
AI-Generated Summary