OpenSIR: Открытая самообучающаяся система рассуждений
OpenSIR: Open-Ended Self-Improving Reasoner
November 1, 2025
Авторы: Wai-Chung Kwan, Joshua Ong Jun Leang, Pavlos Vougiouklis, Jeff Z. Pan, Marco Valentino, Pasquale Minervini
cs.AI
Аннотация
Последние достижения в области обучения рассуждению больших языковых моделей (LLM) с помощью обучения с подкреплением опираются на размеченные наборы данных для верифицируемых наград, что может ограничивать способность моделей превосходить человеческий уровень. Хотя самообучение предлагает многообещающую альтернативу, существующие подходы зависят от внешних верификаторов или не способны к открытому обучению. Мы представляем Open-Ended Self-Improving Reasoner (OpenSIR) — фреймворк самообучения, в котором LLM учится генерировать и решать новые задачи, попеременно принимая роли учителя и ученика без внешнего контроля. Для генерации новых задач OpenSIR оптимизирует как сложность, так и разнообразие, поощряя задачи, которые бросают вызов на соответствующем уровне, одновременно исследуя различные концепции, что позволяет осуществлять открытые математические открытия. Начиная с одной тривиальной исходной задачи, OpenSIR существенно улучшает инструктивные модели: Llama-3.2-3B-Instruct прогрессирует с 73.9 до 78.3 на GSM8K и с 28.8 до 34.4 на College Math, в то время как Gemma-2-2B-Instruct повышает результат с 38.5 до 58.7 на GSM8K. Наш анализ показывает, что OpenSIR достигает открытого обучения за счет коэволюции ролей учителя и ученика, которые адаптивно калибруют сложность и стимулируют разнообразное исследование, автономно продвигаясь от базовой к сложной математике.
English
Recent advances in large language model (LLM) reasoning through reinforcement
learning rely on annotated datasets for verifiable rewards, which may limit
models' ability to surpass human-level performance. While self-play offers a
promising alternative, existing approaches depend on external verifiers or
cannot learn open-endedly. We present Open-Ended Self-Improving Reasoner
(OpenSIR), a self-play framework where an LLM learns to generate and solve
novel problems by alternating teacher and student roles without external
supervision. To generate novel problems, OpenSIR optimises for both difficulty
and diversity, rewarding problems that challenge appropriately while exploring
distinct concepts, enabling open-ended mathematical discovery. Starting from a
single trivial seed problem, OpenSIR substantially improves instruction models:
Llama-3.2-3B-Instruct advances from 73.9 to 78.3 on GSM8K, and from 28.8 to
34.4 on College Math, while Gemma-2-2B-Instruct rises from 38.5 to 58.7 on
GSM8K. Our analyses reveal that OpenSIR achieves open-ended learning through
co-evolving teacher-student roles that adaptively calibrate difficulty and
drive diverse exploration, progressing autonomously from basic to advanced
mathematics.