Absolute Zero : Raisonnement par auto-apprentissage renforcé sans données initialesAbsolute Zero: Reinforced Self-play Reasoning with Zero Data
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a montré des résultats prometteurs pour améliorer les capacités de raisonnement des grands modèles de langage en apprenant directement à partir de récompenses basées sur les résultats. Les travaux récents en RLVR opérant dans un cadre zéro évitent la supervision dans l'étiquetage du processus de raisonnement, mais dépendent toujours de collections de questions et réponses soigneusement préparées par des humains pour l'entraînement. La rareté d'exemples de haute qualité produits par des humains soulève des inquiétudes quant à l'évolutivité à long terme de la dépendance à la supervision humaine, un défi déjà apparent dans le domaine du pré-entraînement des modèles de langage. De plus, dans un futur hypothétique où l'IA surpasserait l'intelligence humaine, les tâches fournies par les humains pourraient offrir un potentiel d'apprentissage limité pour un système superintelligent. Pour répondre à ces préoccupations, nous proposons un nouveau paradigme RLVR appelé Absolute Zero, dans lequel un seul modèle apprend à proposer des tâches qui maximisent ses propres progrès d'apprentissage et améliore son raisonnement en les résolvant, sans s'appuyer sur aucune donnée externe. Dans ce cadre, nous introduisons l'Absolute Zero Reasoner (AZR), un système qui auto-évolue son programme d'entraînement et ses capacités de raisonnement en utilisant un exécuteur de code pour valider les tâches de raisonnement en code proposées et vérifier les réponses, servant ainsi de source unifiée de récompense vérifiable pour guider un apprentissage ouvert mais ancré. Bien qu'entraîné entièrement sans données externes, AZR atteint des performances globales de pointe sur des tâches de raisonnement en programmation et en mathématiques, surpassant les modèles existants en cadre zéro qui s'appuient sur des dizaines de milliers d'exemples humains soigneusement sélectionnés dans le domaine. De plus, nous démontrons qu'AZR peut être efficacement appliqué à différentes échelles de modèles et est compatible avec diverses classes de modèles.