OpenSIR: Offener selbstverbessernder Reasoning-Mechanismus
OpenSIR: Open-Ended Self-Improving Reasoner
November 1, 2025
papers.authors: Wai-Chung Kwan, Joshua Ong Jun Leang, Pavlos Vougiouklis, Jeff Z. Pan, Marco Valentino, Pasquale Minervini
cs.AI
papers.abstract
Jüngste Fortschritte beim Reasoning großer Sprachmodelle (LLM) durch Reinforcement Learning basieren auf annotierten Datensätzen für verifizierbare Belohnungen, was die Fähigkeit der Modelle, menschenähnliche Leistungen zu übertreffen, einschränken könnte. Obwohl Self-Play eine vielversprechende Alternative bietet, sind bestehende Ansätze auf externe Verifizierer angewiesen oder können nicht ergebnisoffen lernen. Wir stellen Open-Ended Self-Improving Reasoner (OpenSIR) vor, einen Self-Play-Rahmen, in dem ein LLM lernt, durch abwechselnde Lehrer- und Schülerrollen ohne externe Aufsicht neue Probleme zu generieren und zu lösen. Um neuartige Probleme zu erzeugen, optimiert OpenSIR sowohl Schwierigkeit als auch Vielfalt, indem es Probleme belohnt, die angemessen herausfordernd sind und gleichzeitig unterschiedliche Konzepte explorieren, was ergebnisoffene mathematische Entdeckungen ermöglicht. Ausgehend von einem einzigen trivialen Startproblem verbessert OpenSIR Instruktionsmodelle erheblich: Llama-3.2-3B-Instruct steigt von 73,9 auf 78,3 bei GSM8K und von 28,8 auf 34,4 bei College Math, während Gemma-2-2B-Instruct bei GSM8K von 38,5 auf 58,7 anwächst. Unsere Analysen zeigen, dass OpenSIR ergebnisoffenes Lernen durch ko-evolvierende Lehrer-Schüler-Rollen erreicht, die Schwierigkeitsgrade adaptiv kalibrieren und vielfältige Exploration vorantreiben, wodurch autonomer Fortschritt von grundlegender zu fortgeschrittener Mathematik erzielt wird.
English
Recent advances in large language model (LLM) reasoning through reinforcement
learning rely on annotated datasets for verifiable rewards, which may limit
models' ability to surpass human-level performance. While self-play offers a
promising alternative, existing approaches depend on external verifiers or
cannot learn open-endedly. We present Open-Ended Self-Improving Reasoner
(OpenSIR), a self-play framework where an LLM learns to generate and solve
novel problems by alternating teacher and student roles without external
supervision. To generate novel problems, OpenSIR optimises for both difficulty
and diversity, rewarding problems that challenge appropriately while exploring
distinct concepts, enabling open-ended mathematical discovery. Starting from a
single trivial seed problem, OpenSIR substantially improves instruction models:
Llama-3.2-3B-Instruct advances from 73.9 to 78.3 on GSM8K, and from 28.8 to
34.4 on College Math, while Gemma-2-2B-Instruct rises from 38.5 to 58.7 on
GSM8K. Our analyses reveal that OpenSIR achieves open-ended learning through
co-evolving teacher-student roles that adaptively calibrate difficulty and
drive diverse exploration, progressing autonomously from basic to advanced
mathematics.