Raciocínio Profundo de Autoevolução

Resumo

O raciocínio em cadeia de pensamento de longa duração tornou-se um pilar fundamental do raciocínio avançado em modelos de linguagem de grande escala. Embora estruturas recentes de verificação e refinamento tenham permitido que modelos proprietários resolvessem problemas de nível olímpico, sua eficácia depende de capacidades robustas e confiáveis de verificação e correção, que permanecem frágeis em modelos de código aberto e menor escala. Este trabalho demonstra que, mesmo com capacidades fracas de verificação e refinamento em tarefas difíceis, os limites de raciocínio desses modelos podem ser substancialmente ampliados por meio de um paradigma probabilístico que chamamos de Raciocínio Autoevolutivo Profundo (Deep Self-Evolving Reasoning - DSER). Conceituamos o raciocínio iterativo como uma cadeia de Markov, onde cada etapa representa uma transição estocástica no espaço de soluções. A ideia central é que a convergência para uma solução correta é garantida desde que a probabilidade de melhoria supere marginalmente a de degradação. Ao executar múltiplos processos autoevolutivos de longo horizonte em paralelo, o DSER amplifica essas pequenas tendências positivas, permitindo que o modelo se aproxime assintoticamente de respostas corretas. Empiricamente, aplicamos o DSER ao modelo DeepSeek-R1-0528-Qwen3-8B. No desafiador benchmark AIME 2024-2025, o DSER resolve 5 de 9 problemas anteriormente insolúveis e impulsiona o desempenho geral, permitindo que este modelo compacto supere a precisão de seu professor de 600 bilhões de parâmetros em uma única rodada por meio de votação majoritária. Além de sua utilidade imediata para escalonamento em tempo de teste, o framework DSER serve para diagnosticar as limitações fundamentais dos raciocinadores de código aberto atuais. Ao delinear claramente suas deficiências em autoverificação, refinamento e estabilidade, nossas descobertas estabelecem uma agenda de pesquisa clara para o desenvolvimento de modelos de próxima geração com capacidades autoevolutivas poderosas e intrínsecas.

English

Long-form chain-of-thought reasoning has become a cornerstone of advanced reasoning in large language models. While recent verification-refinement frameworks have enabled proprietary models to solve Olympiad-level problems, their effectiveness hinges on strong, reliable verification and correction capabilities, which remain fragile in open-weight, smaller-scale models. This work demonstrates that even with weak verification and refinement capabilities on hard tasks, the reasoning limits of such models can be substantially extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning (DSER). We conceptualize iterative reasoning as a Markov chain, where each step represents a stochastic transition in the solution space. The key insight is that convergence to a correct solution is guaranteed as long as the probability of improvement marginally exceeds that of degradation. By running multiple long-horizon, self-evolving processes in parallel, DSER amplifies these small positive tendencies, enabling the model to asymptotically approach correct answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously unsolvable problems and boosts overall performance, enabling this compact model to surpass the single-turn accuracy of its 600B-parameter teacher through majority voting. Beyond its immediate utility for test-time scaling, the DSER framework serves to diagnose the fundamental limitations of current open-weight reasoners. By clearly delineating their shortcomings in self-verification, refinement, and stability, our findings establish a clear research agenda for developing next-generation models with powerful, intrinsic self-evolving capabilities.