OpenSIR : Raisonneur à auto-amélioration ouverte
OpenSIR: Open-Ended Self-Improving Reasoner
November 1, 2025
papers.authors: Wai-Chung Kwan, Joshua Ong Jun Leang, Pavlos Vougiouklis, Jeff Z. Pan, Marco Valentino, Pasquale Minervini
cs.AI
papers.abstract
Les progrès récents dans le raisonnement des grands modèles de langage (LLM) via l'apprentissage par renforcement reposent sur des ensembles de données annotées pour des récompenses vérifiables, ce qui peut limiter la capacité des modèles à dépasser les performances humaines. Bien que l'auto-jeu offre une alternative prometteuse, les approches existantes dépendent de vérificateurs externes ou ne peuvent pas apprendre de manière ouverte. Nous présentons Open-Ended Self-Improving Reasoner (OpenSIR), un cadre d'auto-jeu où un LLM apprend à générer et résoudre des problèmes nouveaux en alternant les rôles d'enseignant et d'étudiant sans supervision externe. Pour générer des problèmes novateurs, OpenSIR optimise à la fois la difficulté et la diversité, en récompensant les problèmes qui challengent de manière appropriée tout en explorant des concepts distincts, permettant ainsi une découverte mathématique ouverte. En partant d'un seul problème trivial initial, OpenSIR améliore substantiellement les modèles instructionnels : Llama-3.2-3B-Instruct progresse de 73.9 à 78.3 sur GSM8K, et de 28.8 à 34.4 sur College Math, tandis que Gemma-2-2B-Instruct passe de 38.5 à 58.7 sur GSM8K. Nos analyses révèlent qu'OpenSIR réalise un apprentissage ouvert grâce à des rôles enseignant-étudiant en co-évolution qui calibrent adaptativement la difficulté et stimulent une exploration diversifiée, progressant autonome
English
Recent advances in large language model (LLM) reasoning through reinforcement
learning rely on annotated datasets for verifiable rewards, which may limit
models' ability to surpass human-level performance. While self-play offers a
promising alternative, existing approaches depend on external verifiers or
cannot learn open-endedly. We present Open-Ended Self-Improving Reasoner
(OpenSIR), a self-play framework where an LLM learns to generate and solve
novel problems by alternating teacher and student roles without external
supervision. To generate novel problems, OpenSIR optimises for both difficulty
and diversity, rewarding problems that challenge appropriately while exploring
distinct concepts, enabling open-ended mathematical discovery. Starting from a
single trivial seed problem, OpenSIR substantially improves instruction models:
Llama-3.2-3B-Instruct advances from 73.9 to 78.3 on GSM8K, and from 28.8 to
34.4 on College Math, while Gemma-2-2B-Instruct rises from 38.5 to 58.7 on
GSM8K. Our analyses reveal that OpenSIR achieves open-ended learning through
co-evolving teacher-student roles that adaptively calibrate difficulty and
drive diverse exploration, progressing autonomously from basic to advanced
mathematics.