Razonamiento Profundo de Autoevolución
Deep Self-Evolving Reasoning
October 20, 2025
Autores: Zihan Liu, Shun Zheng, Xumeng Wen, Yang Wang, Jiang Bian, Mao Yang
cs.AI
Resumen
El razonamiento de cadena de pensamiento de formato largo se ha convertido en un pilar fundamental del razonamiento avanzado en los modelos de lenguaje de gran escala. Si bien los marcos recientes de verificación-refinamiento han permitido que los modelos propietarios resuelvan problemas de nivel olímpico, su efectividad depende de capacidades sólidas y confiables de verificación y corrección, las cuales siguen siendo frágiles en modelos de menor escala y de pesos abiertos. Este trabajo demuestra que, incluso con capacidades débiles de verificación y refinamiento en tareas difíciles, los límites de razonamiento de dichos modelos pueden ampliarse sustancialmente mediante un paradigma probabilístico que denominamos Razonamiento Autoevolutivo Profundo (DSER, por sus siglas en inglés). Conceptualizamos el razonamiento iterativo como una cadena de Markov, donde cada paso representa una transición estocástica en el espacio de soluciones. La idea clave es que la convergencia hacia una solución correcta está garantizada siempre que la probabilidad de mejora supere marginalmente la de degradación. Al ejecutar múltiples procesos autoevolutivos de largo horizonte en paralelo, DSER amplifica estas pequeñas tendencias positivas, permitiendo que el modelo se acerque asintóticamente a respuestas correctas. Empíricamente, aplicamos DSER al modelo DeepSeek-R1-0528-Qwen3-8B. En el desafiante punto de referencia AIME 2024-2025, DSER resuelve 5 de 9 problemas previamente irresolubles y mejora el rendimiento general, permitiendo que este modelo compacto supere la precisión de una sola iteración de su maestro de 600 mil millones de parámetros mediante votación mayoritaria. Más allá de su utilidad inmediata para la escalabilidad en pruebas, el marco DSER sirve para diagnosticar las limitaciones fundamentales de los razonadores actuales de pesos abiertos. Al delinear claramente sus deficiencias en autoverificación, refinamiento y estabilidad, nuestros hallazgos establecen una agenda de investigación clara para desarrollar modelos de próxima generación con capacidades intrínsecas y potentes de autoevolución.
English
Long-form chain-of-thought reasoning has become a cornerstone of advanced
reasoning in large language models. While recent verification-refinement
frameworks have enabled proprietary models to solve Olympiad-level problems,
their effectiveness hinges on strong, reliable verification and correction
capabilities, which remain fragile in open-weight, smaller-scale models. This
work demonstrates that even with weak verification and refinement capabilities
on hard tasks, the reasoning limits of such models can be substantially
extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning
(DSER). We conceptualize iterative reasoning as a Markov chain, where each step
represents a stochastic transition in the solution space. The key insight is
that convergence to a correct solution is guaranteed as long as the probability
of improvement marginally exceeds that of degradation. By running multiple
long-horizon, self-evolving processes in parallel, DSER amplifies these small
positive tendencies, enabling the model to asymptotically approach correct
answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On
the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously
unsolvable problems and boosts overall performance, enabling this compact model
to surpass the single-turn accuracy of its 600B-parameter teacher through
majority voting. Beyond its immediate utility for test-time scaling, the DSER
framework serves to diagnose the fundamental limitations of current open-weight
reasoners. By clearly delineating their shortcomings in self-verification,
refinement, and stability, our findings establish a clear research agenda for
developing next-generation models with powerful, intrinsic self-evolving
capabilities.