OpenSIR: 개방형 자기 진화 추론 시스템
OpenSIR: Open-Ended Self-Improving Reasoner
November 1, 2025
저자: Wai-Chung Kwan, Joshua Ong Jun Leang, Pavlos Vougiouklis, Jeff Z. Pan, Marco Valentino, Pasquale Minervini
cs.AI
초록
검증 가능한 보상을 위한 주석 처리된 데이터셋에 의존하는 강화 학습 기반 대규모 언어 모델(LLM) 추론의 최근 발전은 인간 수준 성능을 초월하는 모델의 능력을 제한할 수 있습니다. 셀프 플레이는 유망한 대안을 제공하지만, 기존 접근법은 외부 검증자에 의존하거나 개방형 학습이 불가능합니다. 본 연구에서는 LLM이 외부 지도 없이 교사와 학생 역할을 교대로 수행하여 새로운 문제를 생성하고 해결하는 방법을 학습하는 셀프 플레이 프레임워크인 Open-Ended Self-Improving Reasoner(OpenSIR)를 제안합니다. 새로운 문제를 생성하기 위해 OpenSIR는 적절한 수준의 도전을 제공하면서 독립적인 개념을 탐구하는 문제에 보상을 부여하여 난이도와 다양성을 함께 최적화함으로써 개방형 수학적 발견을 가능하게 합니다. 단일의 단순한 시드 문제에서 시작하여 OpenSIR는 지시 모델을 크게 향상시켰습니다: Llama-3.2-3B-Instruct는 GSM8K에서 73.9에서 78.3으로, College Math에서 28.8에서 34.4로 발전했으며, Gemma-2-2B-Instruct는 GSM8K에서 38.5에서 58.7로 상승했습니다. 우리의 분석은 OpenSIR가 난이도를 적응적으로 조정하고 다양한 탐색을 주도하는 공동 진화하는 교사-학생 역할을 통해 개방형 학습을 달성하며, 기초 수학에서 고급 수학으로 자율적으로 진전함을 보여줍니다.
English
Recent advances in large language model (LLM) reasoning through reinforcement
learning rely on annotated datasets for verifiable rewards, which may limit
models' ability to surpass human-level performance. While self-play offers a
promising alternative, existing approaches depend on external verifiers or
cannot learn open-endedly. We present Open-Ended Self-Improving Reasoner
(OpenSIR), a self-play framework where an LLM learns to generate and solve
novel problems by alternating teacher and student roles without external
supervision. To generate novel problems, OpenSIR optimises for both difficulty
and diversity, rewarding problems that challenge appropriately while exploring
distinct concepts, enabling open-ended mathematical discovery. Starting from a
single trivial seed problem, OpenSIR substantially improves instruction models:
Llama-3.2-3B-Instruct advances from 73.9 to 78.3 on GSM8K, and from 28.8 to
34.4 on College Math, while Gemma-2-2B-Instruct rises from 38.5 to 58.7 on
GSM8K. Our analyses reveal that OpenSIR achieves open-ended learning through
co-evolving teacher-student roles that adaptively calibrate difficulty and
drive diverse exploration, progressing autonomously from basic to advanced
mathematics.