Zero Absoluto: Raciocínio com Autoaprendizagem Reforçada sem Dados

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) tem mostrado potencial para aprimorar as capacidades de raciocínio de grandes modelos de linguagem ao aprender diretamente com recompensas baseadas em resultados. Trabalhos recentes de RLVR que operam no cenário zero evitam supervisão na rotulagem do processo de raciocínio, mas ainda dependem de coleções manualmente curadas de perguntas e respostas para treinamento. A escassez de exemplos de alta qualidade produzidos por humanos levanta preocupações sobre a escalabilidade a longo prazo da dependência da supervisão humana, um desafio já evidente no domínio do pré-treinamento de modelos de linguagem. Além disso, em um futuro hipotético onde a IA supera a inteligência humana, tarefas fornecidas por humanos podem oferecer um potencial de aprendizado limitado para um sistema superinteligente. Para abordar essas preocupações, propomos um novo paradigma de RLVR chamado Absolute Zero, no qual um único modelo aprende a propor tarefas que maximizam seu próprio progresso de aprendizado e melhora o raciocínio ao resolvê-las, sem depender de nenhum dado externo. Sob esse paradigma, introduzimos o Absolute Zero Reasoner (AZR), um sistema que auto-evolui seu currículo de treinamento e capacidade de raciocínio ao usar um executor de código para validar tarefas de raciocínio em código propostas e verificar respostas, servindo como uma fonte unificada de recompensa verificável para guiar o aprendizado aberto, porém fundamentado. Apesar de ser treinado inteiramente sem dados externos, o AZR alcança desempenho geral de ponta em tarefas de raciocínio matemático e de codificação, superando modelos existentes no cenário zero que dependem de dezenas de milhares de exemplos humanos curados no domínio. Além disso, demonstramos que o AZR pode ser efetivamente aplicado em diferentes escalas de modelos e é compatível com várias classes de modelos.

English

Reinforcement learning with verifiable rewards (RLVR) has shown promise in enhancing the reasoning capabilities of large language models by learning directly from outcome-based rewards. Recent RLVR works that operate under the zero setting avoid supervision in labeling the reasoning process, but still depend on manually curated collections of questions and answers for training. The scarcity of high-quality, human-produced examples raises concerns about the long-term scalability of relying on human supervision, a challenge already evident in the domain of language model pretraining. Furthermore, in a hypothetical future where AI surpasses human intelligence, tasks provided by humans may offer limited learning potential for a superintelligent system. To address these concerns, we propose a new RLVR paradigm called Absolute Zero, in which a single model learns to propose tasks that maximize its own learning progress and improves reasoning by solving them, without relying on any external data. Under this paradigm, we introduce the Absolute Zero Reasoner (AZR), a system that self-evolves its training curriculum and reasoning ability by using a code executor to both validate proposed code reasoning tasks and verify answers, serving as an unified source of verifiable reward to guide open-ended yet grounded learning. Despite being trained entirely without external data, AZR achieves overall SOTA performance on coding and mathematical reasoning tasks, outperforming existing zero-setting models that rely on tens of thousands of in-domain human-curated examples. Furthermore, we demonstrate that AZR can be effectively applied across different model scales and is compatible with various model classes.

Zero Absoluto: Raciocínio com Autoaprendizagem Reforçada sem Dados

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Resumo

Support