Absolute Zero : Raisonnement par auto-apprentissage renforcé sans données initiales

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a montré des résultats prometteurs pour améliorer les capacités de raisonnement des grands modèles de langage en apprenant directement à partir de récompenses basées sur les résultats. Les travaux récents en RLVR opérant dans un cadre zéro évitent la supervision dans l'étiquetage du processus de raisonnement, mais dépendent toujours de collections de questions et réponses soigneusement préparées par des humains pour l'entraînement. La rareté d'exemples de haute qualité produits par des humains soulève des inquiétudes quant à l'évolutivité à long terme de la dépendance à la supervision humaine, un défi déjà apparent dans le domaine du pré-entraînement des modèles de langage. De plus, dans un futur hypothétique où l'IA surpasserait l'intelligence humaine, les tâches fournies par les humains pourraient offrir un potentiel d'apprentissage limité pour un système superintelligent. Pour répondre à ces préoccupations, nous proposons un nouveau paradigme RLVR appelé Absolute Zero, dans lequel un seul modèle apprend à proposer des tâches qui maximisent ses propres progrès d'apprentissage et améliore son raisonnement en les résolvant, sans s'appuyer sur aucune donnée externe. Dans ce cadre, nous introduisons l'Absolute Zero Reasoner (AZR), un système qui auto-évolue son programme d'entraînement et ses capacités de raisonnement en utilisant un exécuteur de code pour valider les tâches de raisonnement en code proposées et vérifier les réponses, servant ainsi de source unifiée de récompense vérifiable pour guider un apprentissage ouvert mais ancré. Bien qu'entraîné entièrement sans données externes, AZR atteint des performances globales de pointe sur des tâches de raisonnement en programmation et en mathématiques, surpassant les modèles existants en cadre zéro qui s'appuient sur des dizaines de milliers d'exemples humains soigneusement sélectionnés dans le domaine. De plus, nous démontrons qu'AZR peut être efficacement appliqué à différentes échelles de modèles et est compatible avec diverses classes de modèles.

English

Reinforcement learning with verifiable rewards (RLVR) has shown promise in enhancing the reasoning capabilities of large language models by learning directly from outcome-based rewards. Recent RLVR works that operate under the zero setting avoid supervision in labeling the reasoning process, but still depend on manually curated collections of questions and answers for training. The scarcity of high-quality, human-produced examples raises concerns about the long-term scalability of relying on human supervision, a challenge already evident in the domain of language model pretraining. Furthermore, in a hypothetical future where AI surpasses human intelligence, tasks provided by humans may offer limited learning potential for a superintelligent system. To address these concerns, we propose a new RLVR paradigm called Absolute Zero, in which a single model learns to propose tasks that maximize its own learning progress and improves reasoning by solving them, without relying on any external data. Under this paradigm, we introduce the Absolute Zero Reasoner (AZR), a system that self-evolves its training curriculum and reasoning ability by using a code executor to both validate proposed code reasoning tasks and verify answers, serving as an unified source of verifiable reward to guide open-ended yet grounded learning. Despite being trained entirely without external data, AZR achieves overall SOTA performance on coding and mathematical reasoning tasks, outperforming existing zero-setting models that rely on tens of thousands of in-domain human-curated examples. Furthermore, we demonstrate that AZR can be effectively applied across different model scales and is compatible with various model classes.

Absolute Zero : Raisonnement par auto-apprentissage renforcé sans données initiales

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Résumé

Support