OpenSIR: Razonador de Mejora Continua de Extremo Abierto
OpenSIR: Open-Ended Self-Improving Reasoner
November 1, 2025
Autores: Wai-Chung Kwan, Joshua Ong Jun Leang, Pavlos Vougiouklis, Jeff Z. Pan, Marco Valentino, Pasquale Minervini
cs.AI
Resumen
Los avances recientes en el razonamiento de modelos de lenguaje grandes (LLM) mediante aprendizaje por refuerzo dependen de conjuntos de datos anotados para obtener recompensas verificables, lo que puede limitar la capacidad de los modelos para superar el rendimiento humano. Aunque el auto-juego ofrece una alternativa prometedora, los enfoques existentes dependen de verificadores externos o no pueden aprender de forma abierta. Presentamos Open-Ended Self-Improving Reasoner (OpenSIR), un marco de auto-juego en el que un LLM aprende a generar y resolver problemas novedosos alternando los roles de profesor y estudiante sin supervisión externa. Para generar problemas novedosos, OpenSIR optimiza tanto la dificultad como la diversidad, recompensando problemas que desafían adecuadamente mientras exploran conceptos distintos, permitiendo el descubrimiento matemático abierto. Partiendo de un único problema inicial trivial, OpenSIR mejora sustancialmente los modelos de instrucción: Llama-3.2-3B-Instruct avanza de 73.9 a 78.3 en GSM8K, y de 28.8 a 34.4 en College Math, mientras que Gemma-2-2B-Instruct aumenta de 38.5 a 58.7 en GSM8K. Nuestros análisis revelan que OpenSIR logra un aprendizaje abierto mediante roles profesor-estudiante que co-evolucionan, calibrando adaptativamente la dificultad e impulsando una exploración diversa, progresando autónomamente desde matemáticas básicas hasta avanzadas.
English
Recent advances in large language model (LLM) reasoning through reinforcement
learning rely on annotated datasets for verifiable rewards, which may limit
models' ability to surpass human-level performance. While self-play offers a
promising alternative, existing approaches depend on external verifiers or
cannot learn open-endedly. We present Open-Ended Self-Improving Reasoner
(OpenSIR), a self-play framework where an LLM learns to generate and solve
novel problems by alternating teacher and student roles without external
supervision. To generate novel problems, OpenSIR optimises for both difficulty
and diversity, rewarding problems that challenge appropriately while exploring
distinct concepts, enabling open-ended mathematical discovery. Starting from a
single trivial seed problem, OpenSIR substantially improves instruction models:
Llama-3.2-3B-Instruct advances from 73.9 to 78.3 on GSM8K, and from 28.8 to
34.4 on College Math, while Gemma-2-2B-Instruct rises from 38.5 to 58.7 on
GSM8K. Our analyses reveal that OpenSIR achieves open-ended learning through
co-evolving teacher-student roles that adaptively calibrate difficulty and
drive diverse exploration, progressing autonomously from basic to advanced
mathematics.