ChatPaper.aiChatPaper

OpenSIR: Ragionatore Auto-Migliorante a Risposta Aperta

OpenSIR: Open-Ended Self-Improving Reasoner

November 1, 2025
Autori: Wai-Chung Kwan, Joshua Ong Jun Leang, Pavlos Vougiouklis, Jeff Z. Pan, Marco Valentino, Pasquale Minervini
cs.AI

Abstract

I recenti progressi nel ragionamento dei grandi modelli linguistici (LLM) attraverso l'apprendimento per rinforzo si basano su dataset annotati per ricompense verificabili, il che può limitare la capacità dei modelli di superare le prestazioni umane. Sebbene l'auto-gioco offra un'alternativa promettente, gli approcci esistenti dipendono da verificatori esterni o non sono in grado di apprendere in modo aperto. Presentiamo Open-Ended Self-Improving Reasoner (OpenSIR), un framework di auto-gioco in cui un LLM impara a generare e risolvere problemi nuovi alternando i ruoli di insegnante e studente senza supervisione esterna. Per generare problemi nuovi, OpenSIR ottimizza sia la difficoltà che la diversità, premiando problemi che sfidano in modo appropriato mentre esplorano concetti distinti, consentendo una scoperta matematica aperta. Partendo da un unico problema seme banale, OpenSIR migliora sostanzialmente i modelli instruction: Llama-3.2-3B-Instruct avanza dal 73.9 al 78.3 su GSM8K e dal 28.8 al 34.4 su College Math, mentre Gemma-2-2B-Instruct sale dal 38.5 al 58.7 su GSM8K. Le nostre analisi rivelano che OpenSIR raggiunge un apprendimento aperto attraverso ruoli insegnante-studente che co-evolvono, calibrando adattivamente la difficoltà e guidando un'esplorazione diversificata, progredendo autonomamente dalla matematica di base a quella avanzata.
English
Recent advances in large language model (LLM) reasoning through reinforcement learning rely on annotated datasets for verifiable rewards, which may limit models' ability to surpass human-level performance. While self-play offers a promising alternative, existing approaches depend on external verifiers or cannot learn open-endedly. We present Open-Ended Self-Improving Reasoner (OpenSIR), a self-play framework where an LLM learns to generate and solve novel problems by alternating teacher and student roles without external supervision. To generate novel problems, OpenSIR optimises for both difficulty and diversity, rewarding problems that challenge appropriately while exploring distinct concepts, enabling open-ended mathematical discovery. Starting from a single trivial seed problem, OpenSIR substantially improves instruction models: Llama-3.2-3B-Instruct advances from 73.9 to 78.3 on GSM8K, and from 28.8 to 34.4 on College Math, while Gemma-2-2B-Instruct rises from 38.5 to 58.7 on GSM8K. Our analyses reveal that OpenSIR achieves open-ended learning through co-evolving teacher-student roles that adaptively calibrate difficulty and drive diverse exploration, progressing autonomously from basic to advanced mathematics.
PDF201December 2, 2025