Diep Zelf-Evoluerend Redeneren

Samenvatting

Langdurige keten-van-gedachten-redenering is een hoeksteen geworden van geavanceerd redeneren in grote taalmodellen. Hoewel recente verificatie-verfijningsframeworks propriëtaire modellen in staat hebben gesteld om Olympiade-niveau problemen op te lossen, hangt hun effectiviteit af van sterke, betrouwbare verificatie- en correctiecapaciteiten, die fragiel blijven in open-weight, kleinschalige modellen. Dit werk toont aan dat zelfs met zwakke verificatie- en verfijningscapaciteiten bij moeilijke taken, de redeneerlimieten van dergelijke modellen aanzienlijk kunnen worden uitgebreid door een probabilistisch paradigma dat we Deep Self-Evolving Reasoning (DSER) noemen. We conceptualiseren iteratief redeneren als een Markov-keten, waarbij elke stap een stochastische overgang in de oplossingsruimte vertegenwoordigt. Het belangrijkste inzicht is dat convergentie naar een correcte oplossing gegarandeerd is zolang de kans op verbetering marginaal groter is dan die van verslechtering. Door meerdere langdurige, zelf-evoluerende processen parallel uit te voeren, versterkt DSER deze kleine positieve tendensen, waardoor het model asymptotisch correcte antwoorden kan benaderen. Empirisch passen we DSER toe op het DeepSeek-R1-0528-Qwen3-8B model. Op de uitdagende AIME 2024-2025 benchmark lost DSER 5 van de 9 voorheen onoplosbare problemen op en verbetert de algehele prestaties, waardoor dit compacte model de single-turn nauwkeurigheid van zijn 600B-parameter leraar overtreft door middel van meerderheidsstemming. Naast de directe bruikbaarheid voor test-time schaling, dient het DSER-framework om de fundamentele beperkingen van huidige open-weight redeneerders te diagnosticeren. Door hun tekortkomingen in zelfverificatie, verfijning en stabiliteit duidelijk af te bakenen, leggen onze bevindingen een duidelijk onderzoeksagenda vast voor de ontwikkeling van next-generation modellen met krachtige, intrinsieke zelf-evoluerende capaciteiten.

English

Long-form chain-of-thought reasoning has become a cornerstone of advanced reasoning in large language models. While recent verification-refinement frameworks have enabled proprietary models to solve Olympiad-level problems, their effectiveness hinges on strong, reliable verification and correction capabilities, which remain fragile in open-weight, smaller-scale models. This work demonstrates that even with weak verification and refinement capabilities on hard tasks, the reasoning limits of such models can be substantially extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning (DSER). We conceptualize iterative reasoning as a Markov chain, where each step represents a stochastic transition in the solution space. The key insight is that convergence to a correct solution is guaranteed as long as the probability of improvement marginally exceeds that of degradation. By running multiple long-horizon, self-evolving processes in parallel, DSER amplifies these small positive tendencies, enabling the model to asymptotically approach correct answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously unsolvable problems and boosts overall performance, enabling this compact model to surpass the single-turn accuracy of its 600B-parameter teacher through majority voting. Beyond its immediate utility for test-time scaling, the DSER framework serves to diagnose the fundamental limitations of current open-weight reasoners. By clearly delineating their shortcomings in self-verification, refinement, and stability, our findings establish a clear research agenda for developing next-generation models with powerful, intrinsic self-evolving capabilities.