OpenSIR: Open-Ende Zelfverbeterende Redeneerder
OpenSIR: Open-Ended Self-Improving Reasoner
November 1, 2025
Auteurs: Wai-Chung Kwan, Joshua Ong Jun Leang, Pavlos Vougiouklis, Jeff Z. Pan, Marco Valentino, Pasquale Minervini
cs.AI
Samenvatting
Recente vooruitgang in het redeneervermogen van grote taalmmodellen (LLM's) door reinforcement learning is afhankelijk van geannoteerde datasets voor verifieerbare beloningen, wat het vermogen van modellen om menselijk prestatieniveau te overstijgen kan beperken. Hoewel zelfspel een veelbelovend alternatief biedt, zijn bestaande benaderingen afhankelijk van externe verificateurs of kunnen ze niet open-eindig leren. Wij presenteren Open-Ended Self-Improving Reasoner (OpenSIR), een zelfspelraamwerk waarin een LLM leert om nieuwe problemen te genereren en op te lossen door afwisselend de rol van leraar en student aan te nemen, zonder externe supervisie. Om nieuwe problemen te genereren, optimaliseert OpenSIR voor zowel moeilijkheidsgraad als diversiteit, waarbij problemen worden beloond die uitdaging bieden op het juiste niveau en tegelijkertijd verschillende concepten verkennen, wat open-eindige wiskundige ontdekking mogelijk maakt. Beginnend vanaf een enkel triviaal startprobleem, verbetert OpenSIR instructiemodellen aanzienlijk: Llama-3.2-3B-Instruct vordert van 73.9 naar 78.3 op GSM8K, en van 28.8 naar 34.4 op College Math, terwijl Gemma-2-2B-Instruct stijgt van 38.5 naar 58.7 op GSM8K. Onze analyses tonen aan dat OpenSIR open-eindig leren bereikt door co-evoluerende leraar-studentrollen die de moeilijkheidsgraad adaptief kalibreren en diverse verkenning aansturen, waardoor autonoom wordt voortgegaan van basis- naar geavanceerde wiskunde.
English
Recent advances in large language model (LLM) reasoning through reinforcement
learning rely on annotated datasets for verifiable rewards, which may limit
models' ability to surpass human-level performance. While self-play offers a
promising alternative, existing approaches depend on external verifiers or
cannot learn open-endedly. We present Open-Ended Self-Improving Reasoner
(OpenSIR), a self-play framework where an LLM learns to generate and solve
novel problems by alternating teacher and student roles without external
supervision. To generate novel problems, OpenSIR optimises for both difficulty
and diversity, rewarding problems that challenge appropriately while exploring
distinct concepts, enabling open-ended mathematical discovery. Starting from a
single trivial seed problem, OpenSIR substantially improves instruction models:
Llama-3.2-3B-Instruct advances from 73.9 to 78.3 on GSM8K, and from 28.8 to
34.4 on College Math, while Gemma-2-2B-Instruct rises from 38.5 to 58.7 on
GSM8K. Our analyses reveal that OpenSIR achieves open-ended learning through
co-evolving teacher-student roles that adaptively calibrate difficulty and
drive diverse exploration, progressing autonomously from basic to advanced
mathematics.