Ragionamento Profondo Auto-Evolutivo
Deep Self-Evolving Reasoning
October 20, 2025
Autori: Zihan Liu, Shun Zheng, Xumeng Wen, Yang Wang, Jiang Bian, Mao Yang
cs.AI
Abstract
Il ragionamento a catena di pensiero di lunga durata è diventato un pilastro fondamentale del ragionamento avanzato nei grandi modelli linguistici. Sebbene i recenti framework di verifica e affinamento abbiano permesso ai modelli proprietari di risolvere problemi di livello olimpico, la loro efficacia dipende da capacità di verifica e correzione forti e affidabili, che rimangono fragili nei modelli open-weight e di scala ridotta. Questo lavoro dimostra che, anche con capacità di verifica e affinamento deboli su compiti difficili, i limiti di ragionamento di tali modelli possono essere sostanzialmente estesi attraverso un paradigma probabilistico che chiamiamo Deep Self-Evolving Reasoning (DSER). Concettualizziamo il ragionamento iterativo come una catena di Markov, dove ogni passo rappresenta una transizione stocastica nello spazio delle soluzioni. L'intuizione chiave è che la convergenza verso una soluzione corretta è garantita fintanto che la probabilità di miglioramento supera marginalmente quella di degrado. Eseguendo in parallelo più processi di auto-evoluzione a lungo termine, il DSER amplifica queste piccole tendenze positive, consentendo al modello di avvicinarsi asintoticamente alle risposte corrette. Empiricamente, applichiamo il DSER al modello DeepSeek-R1-0528-Qwen3-8B. Sul benchmark impegnativo AIME 2024-2025, il DSER risolve 5 su 9 problemi precedentemente irrisolvibili e migliora le prestazioni complessive, permettendo a questo modello compatto di superare l'accuratezza in singolo turno del suo insegnante da 600B parametri attraverso il voto a maggioranza. Oltre alla sua utilità immediata per il scaling durante il test, il framework DSER serve a diagnosticare i limiti fondamentali degli attuali ragionatori open-weight. Delineando chiaramente le loro carenze nella verifica autonoma, nell'affinamento e nella stabilità, i nostri risultati stabiliscono un'agenda di ricerca chiara per lo sviluppo di modelli di prossima generazione con potenti capacità intrinseche di auto-evoluzione.
English
Long-form chain-of-thought reasoning has become a cornerstone of advanced
reasoning in large language models. While recent verification-refinement
frameworks have enabled proprietary models to solve Olympiad-level problems,
their effectiveness hinges on strong, reliable verification and correction
capabilities, which remain fragile in open-weight, smaller-scale models. This
work demonstrates that even with weak verification and refinement capabilities
on hard tasks, the reasoning limits of such models can be substantially
extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning
(DSER). We conceptualize iterative reasoning as a Markov chain, where each step
represents a stochastic transition in the solution space. The key insight is
that convergence to a correct solution is guaranteed as long as the probability
of improvement marginally exceeds that of degradation. By running multiple
long-horizon, self-evolving processes in parallel, DSER amplifies these small
positive tendencies, enabling the model to asymptotically approach correct
answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On
the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously
unsolvable problems and boosts overall performance, enabling this compact model
to surpass the single-turn accuracy of its 600B-parameter teacher through
majority voting. Beyond its immediate utility for test-time scaling, the DSER
framework serves to diagnose the fundamental limitations of current open-weight
reasoners. By clearly delineating their shortcomings in self-verification,
refinement, and stability, our findings establish a clear research agenda for
developing next-generation models with powerful, intrinsic self-evolving
capabilities.