Raisonnement profond auto-évolutif
Deep Self-Evolving Reasoning
October 20, 2025
papers.authors: Zihan Liu, Shun Zheng, Xumeng Wen, Yang Wang, Jiang Bian, Mao Yang
cs.AI
papers.abstract
Le raisonnement en chaîne de pensée de longue durée est devenu un pilier fondamental du raisonnement avancé dans les grands modèles de langage. Bien que les récents cadres de vérification et de raffinement aient permis aux modèles propriétaires de résoudre des problèmes de niveau olympique, leur efficacité repose sur des capacités de vérification et de correction solides et fiables, qui restent fragiles dans les modèles à poids ouverts et de plus petite échelle. Ce travail démontre que même avec des capacités de vérification et de raffinement faibles sur des tâches difficiles, les limites de raisonnement de tels modèles peuvent être considérablement étendues grâce à un paradigme probabiliste que nous appelons le Raisonnement Auto-Évolutif Profond (DSER). Nous conceptualisons le raisonnement itératif comme une chaîne de Markov, où chaque étape représente une transition stochastique dans l'espace des solutions. L'idée clé est que la convergence vers une solution correcte est garantie tant que la probabilité d'amélioration dépasse légèrement celle de dégradation. En exécutant plusieurs processus auto-évolutifs à long horizon en parallèle, DSER amplifie ces petites tendances positives, permettant au modèle d'approcher asymptotiquement les bonnes réponses. Empiriquement, nous appliquons DSER au modèle DeepSeek-R1-0528-Qwen3-8B. Sur le benchmark exigeant AIME 2024-2025, DSER résout 5 des 9 problèmes précédemment insolubles et améliore les performances globales, permettant à ce modèle compact de surpasser la précision en un seul tour de son enseignant à 600 milliards de paramètres grâce au vote majoritaire. Au-delà de son utilité immédiate pour la mise à l'échelle lors des tests, le cadre DSER sert à diagnostiquer les limitations fondamentales des raisonneurs à poids ouverts actuels. En délimitant clairement leurs lacunes en matière d'auto-vérification, de raffinement et de stabilité, nos résultats établissent un agenda de recherche clair pour développer des modèles de nouvelle génération dotés de puissantes capacités intrinsèques d'auto-évolution.
English
Long-form chain-of-thought reasoning has become a cornerstone of advanced
reasoning in large language models. While recent verification-refinement
frameworks have enabled proprietary models to solve Olympiad-level problems,
their effectiveness hinges on strong, reliable verification and correction
capabilities, which remain fragile in open-weight, smaller-scale models. This
work demonstrates that even with weak verification and refinement capabilities
on hard tasks, the reasoning limits of such models can be substantially
extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning
(DSER). We conceptualize iterative reasoning as a Markov chain, where each step
represents a stochastic transition in the solution space. The key insight is
that convergence to a correct solution is guaranteed as long as the probability
of improvement marginally exceeds that of degradation. By running multiple
long-horizon, self-evolving processes in parallel, DSER amplifies these small
positive tendencies, enabling the model to asymptotically approach correct
answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On
the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously
unsolvable problems and boosts overall performance, enabling this compact model
to surpass the single-turn accuracy of its 600B-parameter teacher through
majority voting. Beyond its immediate utility for test-time scaling, the DSER
framework serves to diagnose the fundamental limitations of current open-weight
reasoners. By clearly delineating their shortcomings in self-verification,
refinement, and stability, our findings establish a clear research agenda for
developing next-generation models with powerful, intrinsic self-evolving
capabilities.