OpenSIR: Raciocinador de Autoaprimoramento de Final Aberto
OpenSIR: Open-Ended Self-Improving Reasoner
November 1, 2025
Autores: Wai-Chung Kwan, Joshua Ong Jun Leang, Pavlos Vougiouklis, Jeff Z. Pan, Marco Valentino, Pasquale Minervini
cs.AI
Resumo
Os avanços recentes no raciocínio de grandes modelos de linguagem (LLMs) através de aprendizagem por reforço dependem de conjuntos de dados anotados para recompensas verificáveis, o que pode limitar a capacidade dos modelos de superar o desempenho humano. Embora o autojogo (self-play) ofereça uma alternativa promissora, as abordagens existentes dependem de verificadores externos ou não conseguem aprender de forma aberta. Apresentamos o Open-Ended Self-Improving Reasoner (OpenSIR), uma estrutura de autojogo na qual um LLM aprende a gerar e resolver problemas novos, alternando entre os papéis de professor e aluno sem supervisão externa. Para gerar problemas novos, o OpenSIR otimiza tanto a dificuldade quanto a diversidade, recompensando problemas que desafiam adequadamente enquanto exploram conceitos distintos, permitindo a descoberta matemática aberta. Partindo de um único problema inicial trivial, o OpenSIR melhora substancialmente os modelos de instrução: o Llama-3.2-3B-Instruct avança de 73,9 para 78,3 no GSM8K e de 28,8 para 34,4 no College Math, enquanto o Gemma-2-2B-Instruct sobe de 38,5 para 58,7 no GSM8K. Nossas análises revelam que o OpenSIR alcança a aprendizagem aberta através de papéis professor-aluno que coevoluem, calibrando adaptativamente a dificuldade e impulsionando uma exploração diversificada, progredindo autonomamente da matemática básica para a avançada.
English
Recent advances in large language model (LLM) reasoning through reinforcement
learning rely on annotated datasets for verifiable rewards, which may limit
models' ability to surpass human-level performance. While self-play offers a
promising alternative, existing approaches depend on external verifiers or
cannot learn open-endedly. We present Open-Ended Self-Improving Reasoner
(OpenSIR), a self-play framework where an LLM learns to generate and solve
novel problems by alternating teacher and student roles without external
supervision. To generate novel problems, OpenSIR optimises for both difficulty
and diversity, rewarding problems that challenge appropriately while exploring
distinct concepts, enabling open-ended mathematical discovery. Starting from a
single trivial seed problem, OpenSIR substantially improves instruction models:
Llama-3.2-3B-Instruct advances from 73.9 to 78.3 on GSM8K, and from 28.8 to
34.4 on College Math, while Gemma-2-2B-Instruct rises from 38.5 to 58.7 on
GSM8K. Our analyses reveal that OpenSIR achieves open-ended learning through
co-evolving teacher-student roles that adaptively calibrate difficulty and
drive diverse exploration, progressing autonomously from basic to advanced
mathematics.