Zero Absoluto: Raciocínio com Autoaprendizagem Reforçada sem Dados
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
May 6, 2025
Autores: Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang
cs.AI
Resumo
O aprendizado por reforço com recompensas verificáveis (RLVR) tem mostrado potencial para aprimorar as capacidades de raciocínio de grandes modelos de linguagem ao aprender diretamente com recompensas baseadas em resultados. Trabalhos recentes de RLVR que operam no cenário zero evitam supervisão na rotulagem do processo de raciocínio, mas ainda dependem de coleções manualmente curadas de perguntas e respostas para treinamento. A escassez de exemplos de alta qualidade produzidos por humanos levanta preocupações sobre a escalabilidade a longo prazo da dependência da supervisão humana, um desafio já evidente no domínio do pré-treinamento de modelos de linguagem. Além disso, em um futuro hipotético onde a IA supera a inteligência humana, tarefas fornecidas por humanos podem oferecer um potencial de aprendizado limitado para um sistema superinteligente. Para abordar essas preocupações, propomos um novo paradigma de RLVR chamado Absolute Zero, no qual um único modelo aprende a propor tarefas que maximizam seu próprio progresso de aprendizado e melhora o raciocínio ao resolvê-las, sem depender de nenhum dado externo. Sob esse paradigma, introduzimos o Absolute Zero Reasoner (AZR), um sistema que auto-evolui seu currículo de treinamento e capacidade de raciocínio ao usar um executor de código para validar tarefas de raciocínio em código propostas e verificar respostas, servindo como uma fonte unificada de recompensa verificável para guiar o aprendizado aberto, porém fundamentado. Apesar de ser treinado inteiramente sem dados externos, o AZR alcança desempenho geral de ponta em tarefas de raciocínio matemático e de codificação, superando modelos existentes no cenário zero que dependem de dezenas de milhares de exemplos humanos curados no domínio. Além disso, demonstramos que o AZR pode ser efetivamente aplicado em diferentes escalas de modelos e é compatível com várias classes de modelos.
English
Reinforcement learning with verifiable rewards (RLVR) has shown promise in
enhancing the reasoning capabilities of large language models by learning
directly from outcome-based rewards. Recent RLVR works that operate under the
zero setting avoid supervision in labeling the reasoning process, but still
depend on manually curated collections of questions and answers for training.
The scarcity of high-quality, human-produced examples raises concerns about the
long-term scalability of relying on human supervision, a challenge already
evident in the domain of language model pretraining. Furthermore, in a
hypothetical future where AI surpasses human intelligence, tasks provided by
humans may offer limited learning potential for a superintelligent system. To
address these concerns, we propose a new RLVR paradigm called Absolute Zero, in
which a single model learns to propose tasks that maximize its own learning
progress and improves reasoning by solving them, without relying on any
external data. Under this paradigm, we introduce the Absolute Zero Reasoner
(AZR), a system that self-evolves its training curriculum and reasoning ability
by using a code executor to both validate proposed code reasoning tasks and
verify answers, serving as an unified source of verifiable reward to guide
open-ended yet grounded learning. Despite being trained entirely without
external data, AZR achieves overall SOTA performance on coding and mathematical
reasoning tasks, outperforming existing zero-setting models that rely on tens
of thousands of in-domain human-curated examples. Furthermore, we demonstrate
that AZR can be effectively applied across different model scales and is
compatible with various model classes.