OpenSIR : Raisonneur à auto-amélioration ouverte

Résumé

Les progrès récents dans le raisonnement des grands modèles de langage (LLM) via l'apprentissage par renforcement reposent sur des ensembles de données annotées pour des récompenses vérifiables, ce qui peut limiter la capacité des modèles à dépasser les performances humaines. Bien que l'auto-jeu offre une alternative prometteuse, les approches existantes dépendent de vérificateurs externes ou ne peuvent pas apprendre de manière ouverte. Nous présentons Open-Ended Self-Improving Reasoner (OpenSIR), un cadre d'auto-jeu où un LLM apprend à générer et résoudre des problèmes nouveaux en alternant les rôles d'enseignant et d'étudiant sans supervision externe. Pour générer des problèmes novateurs, OpenSIR optimise à la fois la difficulté et la diversité, en récompensant les problèmes qui challengent de manière appropriée tout en explorant des concepts distincts, permettant ainsi une découverte mathématique ouverte. En partant d'un seul problème trivial initial, OpenSIR améliore substantiellement les modèles instructionnels : Llama-3.2-3B-Instruct progresse de 73.9 à 78.3 sur GSM8K, et de 28.8 à 34.4 sur College Math, tandis que Gemma-2-2B-Instruct passe de 38.5 à 58.7 sur GSM8K. Nos analyses révèlent qu'OpenSIR réalise un apprentissage ouvert grâce à des rôles enseignant-étudiant en co-évolution qui calibrent adaptativement la difficulté et stimulent une exploration diversifiée, progressant autonome

English

Recent advances in large language model (LLM) reasoning through reinforcement learning rely on annotated datasets for verifiable rewards, which may limit models' ability to surpass human-level performance. While self-play offers a promising alternative, existing approaches depend on external verifiers or cannot learn open-endedly. We present Open-Ended Self-Improving Reasoner (OpenSIR), a self-play framework where an LLM learns to generate and solve novel problems by alternating teacher and student roles without external supervision. To generate novel problems, OpenSIR optimises for both difficulty and diversity, rewarding problems that challenge appropriately while exploring distinct concepts, enabling open-ended mathematical discovery. Starting from a single trivial seed problem, OpenSIR substantially improves instruction models: Llama-3.2-3B-Instruct advances from 73.9 to 78.3 on GSM8K, and from 28.8 to 34.4 on College Math, while Gemma-2-2B-Instruct rises from 38.5 to 58.7 on GSM8K. Our analyses reveal that OpenSIR achieves open-ended learning through co-evolving teacher-student roles that adaptively calibrate difficulty and drive diverse exploration, progressing autonomously from basic to advanced mathematics.