Diep Zelf-Evoluerend Redeneren
Deep Self-Evolving Reasoning
October 20, 2025
Auteurs: Zihan Liu, Shun Zheng, Xumeng Wen, Yang Wang, Jiang Bian, Mao Yang
cs.AI
Samenvatting
Langdurige keten-van-gedachten-redenering is een hoeksteen geworden van geavanceerd redeneren in grote taalmodellen. Hoewel recente verificatie-verfijningsframeworks propriëtaire modellen in staat hebben gesteld om Olympiade-niveau problemen op te lossen, hangt hun effectiviteit af van sterke, betrouwbare verificatie- en correctiecapaciteiten, die fragiel blijven in open-weight, kleinschalige modellen. Dit werk toont aan dat zelfs met zwakke verificatie- en verfijningscapaciteiten bij moeilijke taken, de redeneerlimieten van dergelijke modellen aanzienlijk kunnen worden uitgebreid door een probabilistisch paradigma dat we Deep Self-Evolving Reasoning (DSER) noemen. We conceptualiseren iteratief redeneren als een Markov-keten, waarbij elke stap een stochastische overgang in de oplossingsruimte vertegenwoordigt. Het belangrijkste inzicht is dat convergentie naar een correcte oplossing gegarandeerd is zolang de kans op verbetering marginaal groter is dan die van verslechtering. Door meerdere langdurige, zelf-evoluerende processen parallel uit te voeren, versterkt DSER deze kleine positieve tendensen, waardoor het model asymptotisch correcte antwoorden kan benaderen. Empirisch passen we DSER toe op het DeepSeek-R1-0528-Qwen3-8B model. Op de uitdagende AIME 2024-2025 benchmark lost DSER 5 van de 9 voorheen onoplosbare problemen op en verbetert de algehele prestaties, waardoor dit compacte model de single-turn nauwkeurigheid van zijn 600B-parameter leraar overtreft door middel van meerderheidsstemming. Naast de directe bruikbaarheid voor test-time schaling, dient het DSER-framework om de fundamentele beperkingen van huidige open-weight redeneerders te diagnosticeren. Door hun tekortkomingen in zelfverificatie, verfijning en stabiliteit duidelijk af te bakenen, leggen onze bevindingen een duidelijk onderzoeksagenda vast voor de ontwikkeling van next-generation modellen met krachtige, intrinsieke zelf-evoluerende capaciteiten.
English
Long-form chain-of-thought reasoning has become a cornerstone of advanced
reasoning in large language models. While recent verification-refinement
frameworks have enabled proprietary models to solve Olympiad-level problems,
their effectiveness hinges on strong, reliable verification and correction
capabilities, which remain fragile in open-weight, smaller-scale models. This
work demonstrates that even with weak verification and refinement capabilities
on hard tasks, the reasoning limits of such models can be substantially
extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning
(DSER). We conceptualize iterative reasoning as a Markov chain, where each step
represents a stochastic transition in the solution space. The key insight is
that convergence to a correct solution is guaranteed as long as the probability
of improvement marginally exceeds that of degradation. By running multiple
long-horizon, self-evolving processes in parallel, DSER amplifies these small
positive tendencies, enabling the model to asymptotically approach correct
answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On
the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously
unsolvable problems and boosts overall performance, enabling this compact model
to surpass the single-turn accuracy of its 600B-parameter teacher through
majority voting. Beyond its immediate utility for test-time scaling, the DSER
framework serves to diagnose the fundamental limitations of current open-weight
reasoners. By clearly delineating their shortcomings in self-verification,
refinement, and stability, our findings establish a clear research agenda for
developing next-generation models with powerful, intrinsic self-evolving
capabilities.