ChatPaper.aiChatPaper

절대 영점: 데이터 없이 강화된 자기 주도적 추론

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

May 6, 2025
저자: Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 결과 기반 보상으로부터 직접 학습함으로써 대규모 언어 모델의 추론 능력을 향상시키는 데 유망한 가능성을 보여주었습니다. 최근의 RLVR 연구들은 제로 설정(zero setting) 하에서 추론 과정에 대한 라벨링 감독을 피하지만, 여전히 훈련을 위해 수작업으로 정리된 질문과 답변 컬렉션에 의존합니다. 고품질의 인간이 생성한 예제의 부족은 언어 모델 사전 훈련 분야에서 이미 드러난 바와 같이, 인간 감독에 의존하는 방식의 장기적인 확장성에 대한 우려를 불러일으킵니다. 더 나아가, 가상의 미래에서 AI가 인간 지능을 초월하는 상황에서는 인간이 제공한 과제가 초지능 시스템에게 제한된 학습 잠재력만을 제공할 가능성이 있습니다. 이러한 문제를 해결하기 위해, 우리는 외부 데이터에 의존하지 않고 단일 모델이 자신의 학습 진전을 극대화하는 과제를 제안하고 이를 해결함으로써 추론 능력을 향상시키는 새로운 RLVR 패러다임인 '절대 제로(Absolute Zero)'를 제안합니다. 이 패러다임 하에서, 우리는 코드 실행기를 사용하여 제안된 코드 추론 과제를 검증하고 답변을 확인함으로써 훈련 커리큘럼과 추론 능력을 자체적으로 진화시키는 '절대 제로 추론기(Absolute Zero Reasoner, AZR)' 시스템을 소개합니다. AZR은 검증 가능한 보상의 통합된 원천으로 작용하며, 개방적이면서도 근거 있는 학습을 안내합니다. 외부 데이터 없이 전적으로 훈련되었음에도 불구하고, AZR은 코딩 및 수학적 추론 과제에서 전반적으로 최첨단(SOTA) 성능을 달성하며, 수만 개의 도메인 내 인간이 정리한 예제에 의존하는 기존의 제로 설정 모델들을 능가합니다. 또한, AZR이 다양한 모델 규모에 효과적으로 적용될 수 있으며 다양한 모델 클래스와 호환된다는 것을 입증합니다.
English
Reinforcement learning with verifiable rewards (RLVR) has shown promise in enhancing the reasoning capabilities of large language models by learning directly from outcome-based rewards. Recent RLVR works that operate under the zero setting avoid supervision in labeling the reasoning process, but still depend on manually curated collections of questions and answers for training. The scarcity of high-quality, human-produced examples raises concerns about the long-term scalability of relying on human supervision, a challenge already evident in the domain of language model pretraining. Furthermore, in a hypothetical future where AI surpasses human intelligence, tasks provided by humans may offer limited learning potential for a superintelligent system. To address these concerns, we propose a new RLVR paradigm called Absolute Zero, in which a single model learns to propose tasks that maximize its own learning progress and improves reasoning by solving them, without relying on any external data. Under this paradigm, we introduce the Absolute Zero Reasoner (AZR), a system that self-evolves its training curriculum and reasoning ability by using a code executor to both validate proposed code reasoning tasks and verify answers, serving as an unified source of verifiable reward to guide open-ended yet grounded learning. Despite being trained entirely without external data, AZR achieves overall SOTA performance on coding and mathematical reasoning tasks, outperforming existing zero-setting models that rely on tens of thousands of in-domain human-curated examples. Furthermore, we demonstrate that AZR can be effectively applied across different model scales and is compatible with various model classes.

Summary

AI-Generated Summary

PDF822May 7, 2025