Ragionamento Profondo Auto-Evolutivo

Abstract

Il ragionamento a catena di pensiero di lunga durata è diventato un pilastro fondamentale del ragionamento avanzato nei grandi modelli linguistici. Sebbene i recenti framework di verifica e affinamento abbiano permesso ai modelli proprietari di risolvere problemi di livello olimpico, la loro efficacia dipende da capacità di verifica e correzione forti e affidabili, che rimangono fragili nei modelli open-weight e di scala ridotta. Questo lavoro dimostra che, anche con capacità di verifica e affinamento deboli su compiti difficili, i limiti di ragionamento di tali modelli possono essere sostanzialmente estesi attraverso un paradigma probabilistico che chiamiamo Deep Self-Evolving Reasoning (DSER). Concettualizziamo il ragionamento iterativo come una catena di Markov, dove ogni passo rappresenta una transizione stocastica nello spazio delle soluzioni. L'intuizione chiave è che la convergenza verso una soluzione corretta è garantita fintanto che la probabilità di miglioramento supera marginalmente quella di degrado. Eseguendo in parallelo più processi di auto-evoluzione a lungo termine, il DSER amplifica queste piccole tendenze positive, consentendo al modello di avvicinarsi asintoticamente alle risposte corrette. Empiricamente, applichiamo il DSER al modello DeepSeek-R1-0528-Qwen3-8B. Sul benchmark impegnativo AIME 2024-2025, il DSER risolve 5 su 9 problemi precedentemente irrisolvibili e migliora le prestazioni complessive, permettendo a questo modello compatto di superare l'accuratezza in singolo turno del suo insegnante da 600B parametri attraverso il voto a maggioranza. Oltre alla sua utilità immediata per il scaling durante il test, il framework DSER serve a diagnosticare i limiti fondamentali degli attuali ragionatori open-weight. Delineando chiaramente le loro carenze nella verifica autonoma, nell'affinamento e nella stabilità, i nostri risultati stabiliscono un'agenda di ricerca chiara per lo sviluppo di modelli di prossima generazione con potenti capacità intrinseche di auto-evoluzione.

English

Long-form chain-of-thought reasoning has become a cornerstone of advanced reasoning in large language models. While recent verification-refinement frameworks have enabled proprietary models to solve Olympiad-level problems, their effectiveness hinges on strong, reliable verification and correction capabilities, which remain fragile in open-weight, smaller-scale models. This work demonstrates that even with weak verification and refinement capabilities on hard tasks, the reasoning limits of such models can be substantially extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning (DSER). We conceptualize iterative reasoning as a Markov chain, where each step represents a stochastic transition in the solution space. The key insight is that convergence to a correct solution is guaranteed as long as the probability of improvement marginally exceeds that of degradation. By running multiple long-horizon, self-evolving processes in parallel, DSER amplifies these small positive tendencies, enabling the model to asymptotically approach correct answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously unsolvable problems and boosts overall performance, enabling this compact model to surpass the single-turn accuracy of its 600B-parameter teacher through majority voting. Beyond its immediate utility for test-time scaling, the DSER framework serves to diagnose the fundamental limitations of current open-weight reasoners. By clearly delineating their shortcomings in self-verification, refinement, and stability, our findings establish a clear research agenda for developing next-generation models with powerful, intrinsic self-evolving capabilities.