Tiefe selbstentwickelnde Argumentation
Deep Self-Evolving Reasoning
October 20, 2025
papers.authors: Zihan Liu, Shun Zheng, Xumeng Wen, Yang Wang, Jiang Bian, Mao Yang
cs.AI
papers.abstract
Langfristige Ketten von Denkschritten (Chain-of-Thought Reasoning) haben sich zu einem Eckpfeiler fortgeschrittenen Denkens in großen Sprachmodellen entwickelt. Während neuere Verifikations- und Verfeinerungsframeworks proprietären Modellen ermöglicht haben, Olympiade-Level-Probleme zu lösen, hängt ihre Wirksamkeit von starken, zuverlässigen Verifikations- und Korrekturfähigkeiten ab, die in offenen, kleineren Modellen nach wie vor fragil bleiben. Diese Arbeit zeigt, dass selbst mit schwachen Verifikations- und Verfeinerungsfähigkeiten bei schwierigen Aufgaben die Denkgrenzen solcher Modelle erheblich erweitert werden können, durch ein probabilistisches Paradigma, das wir Deep Self-Evolving Reasoning (DSER) nennen. Wir konzeptualisieren iteratives Denken als eine Markov-Kette, bei der jeder Schritt einen stochastischen Übergang im Lösungsraum darstellt. Die zentrale Erkenntnis ist, dass die Konvergenz zu einer korrekten Lösung garantiert ist, solange die Wahrscheinlichkeit einer Verbesserung die einer Verschlechterung marginal übersteigt. Durch das parallele Ausführen mehrerer langfristiger, selbstentwickelnder Prozesse verstärkt DSER diese kleinen positiven Tendenzen und ermöglicht es dem Modell, sich asymptotisch den richtigen Antworten zu nähern. Empirisch wenden wir DSER auf das DeepSeek-R1-0528-Qwen3-8B-Modell an. Auf dem anspruchsvollen AIME 2024-2025-Benchmark löst DSER 5 von 9 zuvor unlösbaren Problemen und steigert die Gesamtleistung, wodurch dieses kompakte Modell durch Mehrheitsentscheidung die Einzelzug-Genauigkeit seines 600B-Parameter-Lehrers übertrifft. Über seinen unmittelbaren Nutzen für die Skalierung zur Testzeit hinaus dient das DSER-Framework dazu, die grundlegenden Grenzen aktueller offener Denkmodelle zu diagnostizieren. Durch die klare Abgrenzung ihrer Schwächen in Selbstverifikation, Verfeinerung und Stabilität etablieren unsere Ergebnisse eine klare Forschungsagenda für die Entwicklung von Modellen der nächsten Generation mit leistungsstarken, intrinsischen Selbstentwicklungsfähigkeiten.
English
Long-form chain-of-thought reasoning has become a cornerstone of advanced
reasoning in large language models. While recent verification-refinement
frameworks have enabled proprietary models to solve Olympiad-level problems,
their effectiveness hinges on strong, reliable verification and correction
capabilities, which remain fragile in open-weight, smaller-scale models. This
work demonstrates that even with weak verification and refinement capabilities
on hard tasks, the reasoning limits of such models can be substantially
extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning
(DSER). We conceptualize iterative reasoning as a Markov chain, where each step
represents a stochastic transition in the solution space. The key insight is
that convergence to a correct solution is guaranteed as long as the probability
of improvement marginally exceeds that of degradation. By running multiple
long-horizon, self-evolving processes in parallel, DSER amplifies these small
positive tendencies, enabling the model to asymptotically approach correct
answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On
the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously
unsolvable problems and boosts overall performance, enabling this compact model
to surpass the single-turn accuracy of its 600B-parameter teacher through
majority voting. Beyond its immediate utility for test-time scaling, the DSER
framework serves to diagnose the fundamental limitations of current open-weight
reasoners. By clearly delineating their shortcomings in self-verification,
refinement, and stability, our findings establish a clear research agenda for
developing next-generation models with powerful, intrinsic self-evolving
capabilities.