Raciocínio Profundo de Autoevolução
Deep Self-Evolving Reasoning
October 20, 2025
Autores: Zihan Liu, Shun Zheng, Xumeng Wen, Yang Wang, Jiang Bian, Mao Yang
cs.AI
Resumo
O raciocínio em cadeia de pensamento de longa duração tornou-se um pilar fundamental do raciocínio avançado em modelos de linguagem de grande escala. Embora estruturas recentes de verificação e refinamento tenham permitido que modelos proprietários resolvessem problemas de nível olímpico, sua eficácia depende de capacidades robustas e confiáveis de verificação e correção, que permanecem frágeis em modelos de código aberto e menor escala. Este trabalho demonstra que, mesmo com capacidades fracas de verificação e refinamento em tarefas difíceis, os limites de raciocínio desses modelos podem ser substancialmente ampliados por meio de um paradigma probabilístico que chamamos de Raciocínio Autoevolutivo Profundo (Deep Self-Evolving Reasoning - DSER). Conceituamos o raciocínio iterativo como uma cadeia de Markov, onde cada etapa representa uma transição estocástica no espaço de soluções. A ideia central é que a convergência para uma solução correta é garantida desde que a probabilidade de melhoria supere marginalmente a de degradação. Ao executar múltiplos processos autoevolutivos de longo horizonte em paralelo, o DSER amplifica essas pequenas tendências positivas, permitindo que o modelo se aproxime assintoticamente de respostas corretas. Empiricamente, aplicamos o DSER ao modelo DeepSeek-R1-0528-Qwen3-8B. No desafiador benchmark AIME 2024-2025, o DSER resolve 5 de 9 problemas anteriormente insolúveis e impulsiona o desempenho geral, permitindo que este modelo compacto supere a precisão de seu professor de 600 bilhões de parâmetros em uma única rodada por meio de votação majoritária. Além de sua utilidade imediata para escalonamento em tempo de teste, o framework DSER serve para diagnosticar as limitações fundamentais dos raciocinadores de código aberto atuais. Ao delinear claramente suas deficiências em autoverificação, refinamento e estabilidade, nossas descobertas estabelecem uma agenda de pesquisa clara para o desenvolvimento de modelos de próxima geração com capacidades autoevolutivas poderosas e intrínsecas.
English
Long-form chain-of-thought reasoning has become a cornerstone of advanced
reasoning in large language models. While recent verification-refinement
frameworks have enabled proprietary models to solve Olympiad-level problems,
their effectiveness hinges on strong, reliable verification and correction
capabilities, which remain fragile in open-weight, smaller-scale models. This
work demonstrates that even with weak verification and refinement capabilities
on hard tasks, the reasoning limits of such models can be substantially
extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning
(DSER). We conceptualize iterative reasoning as a Markov chain, where each step
represents a stochastic transition in the solution space. The key insight is
that convergence to a correct solution is guaranteed as long as the probability
of improvement marginally exceeds that of degradation. By running multiple
long-horizon, self-evolving processes in parallel, DSER amplifies these small
positive tendencies, enabling the model to asymptotically approach correct
answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On
the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously
unsolvable problems and boosts overall performance, enabling this compact model
to surpass the single-turn accuracy of its 600B-parameter teacher through
majority voting. Beyond its immediate utility for test-time scaling, the DSER
framework serves to diagnose the fundamental limitations of current open-weight
reasoners. By clearly delineating their shortcomings in self-verification,
refinement, and stability, our findings establish a clear research agenda for
developing next-generation models with powerful, intrinsic self-evolving
capabilities.