ChatPaper.aiChatPaper

Cero Absoluto: Razonamiento con Autoaprendizaje Reforzado sin Datos

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

May 6, 2025
Autores: Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang
cs.AI

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) ha demostrado ser prometedor para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes al aprender directamente a partir de recompensas basadas en resultados. Trabajos recientes de RLVR que operan en el entorno de cero evitan la supervisión en la etiquetación del proceso de razonamiento, pero aún dependen de colecciones manualmente curadas de preguntas y respuestas para el entrenamiento. La escasez de ejemplos de alta calidad producidos por humanos plantea preocupaciones sobre la escalabilidad a largo plazo de depender de la supervisión humana, un desafío ya evidente en el dominio del preentrenamiento de modelos de lenguaje. Además, en un futuro hipotético donde la inteligencia artificial supere a la humana, las tareas proporcionadas por humanos podrían ofrecer un potencial de aprendizaje limitado para un sistema superinteligente. Para abordar estas preocupaciones, proponemos un nuevo paradigma de RLVR llamado Absolute Zero, en el cual un único modelo aprende a proponer tareas que maximizan su propio progreso de aprendizaje y mejora el razonamiento al resolverlas, sin depender de ningún dato externo. Bajo este paradigma, presentamos el Absolute Zero Reasoner (AZR), un sistema que auto-evoluciona su currículo de entrenamiento y capacidad de razonamiento utilizando un ejecutor de código para validar tareas de razonamiento de código propuestas y verificar respuestas, sirviendo como una fuente unificada de recompensa verificable para guiar un aprendizaje abierto pero fundamentado. A pesar de ser entrenado completamente sin datos externos, AZR logra un rendimiento general de última generación (SOTA) en tareas de razonamiento matemático y de codificación, superando a los modelos existentes en el entorno de cero que dependen de decenas de miles de ejemplos humanos curados en el dominio. Además, demostramos que AZR puede aplicarse eficazmente en diferentes escalas de modelos y es compatible con diversas clases de modelos.
English
Reinforcement learning with verifiable rewards (RLVR) has shown promise in enhancing the reasoning capabilities of large language models by learning directly from outcome-based rewards. Recent RLVR works that operate under the zero setting avoid supervision in labeling the reasoning process, but still depend on manually curated collections of questions and answers for training. The scarcity of high-quality, human-produced examples raises concerns about the long-term scalability of relying on human supervision, a challenge already evident in the domain of language model pretraining. Furthermore, in a hypothetical future where AI surpasses human intelligence, tasks provided by humans may offer limited learning potential for a superintelligent system. To address these concerns, we propose a new RLVR paradigm called Absolute Zero, in which a single model learns to propose tasks that maximize its own learning progress and improves reasoning by solving them, without relying on any external data. Under this paradigm, we introduce the Absolute Zero Reasoner (AZR), a system that self-evolves its training curriculum and reasoning ability by using a code executor to both validate proposed code reasoning tasks and verify answers, serving as an unified source of verifiable reward to guide open-ended yet grounded learning. Despite being trained entirely without external data, AZR achieves overall SOTA performance on coding and mathematical reasoning tasks, outperforming existing zero-setting models that rely on tens of thousands of in-domain human-curated examples. Furthermore, we demonstrate that AZR can be effectively applied across different model scales and is compatible with various model classes.

Summary

AI-Generated Summary

PDF822May 7, 2025