Raisonnement profond auto-évolutif

papers.abstract

Le raisonnement en chaîne de pensée de longue durée est devenu un pilier fondamental du raisonnement avancé dans les grands modèles de langage. Bien que les récents cadres de vérification et de raffinement aient permis aux modèles propriétaires de résoudre des problèmes de niveau olympique, leur efficacité repose sur des capacités de vérification et de correction solides et fiables, qui restent fragiles dans les modèles à poids ouverts et de plus petite échelle. Ce travail démontre que même avec des capacités de vérification et de raffinement faibles sur des tâches difficiles, les limites de raisonnement de tels modèles peuvent être considérablement étendues grâce à un paradigme probabiliste que nous appelons le Raisonnement Auto-Évolutif Profond (DSER). Nous conceptualisons le raisonnement itératif comme une chaîne de Markov, où chaque étape représente une transition stochastique dans l'espace des solutions. L'idée clé est que la convergence vers une solution correcte est garantie tant que la probabilité d'amélioration dépasse légèrement celle de dégradation. En exécutant plusieurs processus auto-évolutifs à long horizon en parallèle, DSER amplifie ces petites tendances positives, permettant au modèle d'approcher asymptotiquement les bonnes réponses. Empiriquement, nous appliquons DSER au modèle DeepSeek-R1-0528-Qwen3-8B. Sur le benchmark exigeant AIME 2024-2025, DSER résout 5 des 9 problèmes précédemment insolubles et améliore les performances globales, permettant à ce modèle compact de surpasser la précision en un seul tour de son enseignant à 600 milliards de paramètres grâce au vote majoritaire. Au-delà de son utilité immédiate pour la mise à l'échelle lors des tests, le cadre DSER sert à diagnostiquer les limitations fondamentales des raisonneurs à poids ouverts actuels. En délimitant clairement leurs lacunes en matière d'auto-vérification, de raffinement et de stabilité, nos résultats établissent un agenda de recherche clair pour développer des modèles de nouvelle génération dotés de puissantes capacités intrinsèques d'auto-évolution.

English

Long-form chain-of-thought reasoning has become a cornerstone of advanced reasoning in large language models. While recent verification-refinement frameworks have enabled proprietary models to solve Olympiad-level problems, their effectiveness hinges on strong, reliable verification and correction capabilities, which remain fragile in open-weight, smaller-scale models. This work demonstrates that even with weak verification and refinement capabilities on hard tasks, the reasoning limits of such models can be substantially extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning (DSER). We conceptualize iterative reasoning as a Markov chain, where each step represents a stochastic transition in the solution space. The key insight is that convergence to a correct solution is guaranteed as long as the probability of improvement marginally exceeds that of degradation. By running multiple long-horizon, self-evolving processes in parallel, DSER amplifies these small positive tendencies, enabling the model to asymptotically approach correct answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously unsolvable problems and boosts overall performance, enabling this compact model to surpass the single-turn accuracy of its 600B-parameter teacher through majority voting. Beyond its immediate utility for test-time scaling, the DSER framework serves to diagnose the fundamental limitations of current open-weight reasoners. By clearly delineating their shortcomings in self-verification, refinement, and stability, our findings establish a clear research agenda for developing next-generation models with powerful, intrinsic self-evolving capabilities.