Razonamiento Profundo de Autoevolución

Resumen

El razonamiento de cadena de pensamiento de formato largo se ha convertido en un pilar fundamental del razonamiento avanzado en los modelos de lenguaje de gran escala. Si bien los marcos recientes de verificación-refinamiento han permitido que los modelos propietarios resuelvan problemas de nivel olímpico, su efectividad depende de capacidades sólidas y confiables de verificación y corrección, las cuales siguen siendo frágiles en modelos de menor escala y de pesos abiertos. Este trabajo demuestra que, incluso con capacidades débiles de verificación y refinamiento en tareas difíciles, los límites de razonamiento de dichos modelos pueden ampliarse sustancialmente mediante un paradigma probabilístico que denominamos Razonamiento Autoevolutivo Profundo (DSER, por sus siglas en inglés). Conceptualizamos el razonamiento iterativo como una cadena de Markov, donde cada paso representa una transición estocástica en el espacio de soluciones. La idea clave es que la convergencia hacia una solución correcta está garantizada siempre que la probabilidad de mejora supere marginalmente la de degradación. Al ejecutar múltiples procesos autoevolutivos de largo horizonte en paralelo, DSER amplifica estas pequeñas tendencias positivas, permitiendo que el modelo se acerque asintóticamente a respuestas correctas. Empíricamente, aplicamos DSER al modelo DeepSeek-R1-0528-Qwen3-8B. En el desafiante punto de referencia AIME 2024-2025, DSER resuelve 5 de 9 problemas previamente irresolubles y mejora el rendimiento general, permitiendo que este modelo compacto supere la precisión de una sola iteración de su maestro de 600 mil millones de parámetros mediante votación mayoritaria. Más allá de su utilidad inmediata para la escalabilidad en pruebas, el marco DSER sirve para diagnosticar las limitaciones fundamentales de los razonadores actuales de pesos abiertos. Al delinear claramente sus deficiencias en autoverificación, refinamiento y estabilidad, nuestros hallazgos establecen una agenda de investigación clara para desarrollar modelos de próxima generación con capacidades intrínsecas y potentes de autoevolución.

English

Long-form chain-of-thought reasoning has become a cornerstone of advanced reasoning in large language models. While recent verification-refinement frameworks have enabled proprietary models to solve Olympiad-level problems, their effectiveness hinges on strong, reliable verification and correction capabilities, which remain fragile in open-weight, smaller-scale models. This work demonstrates that even with weak verification and refinement capabilities on hard tasks, the reasoning limits of such models can be substantially extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning (DSER). We conceptualize iterative reasoning as a Markov chain, where each step represents a stochastic transition in the solution space. The key insight is that convergence to a correct solution is guaranteed as long as the probability of improvement marginally exceeds that of degradation. By running multiple long-horizon, self-evolving processes in parallel, DSER amplifies these small positive tendencies, enabling the model to asymptotically approach correct answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously unsolvable problems and boosts overall performance, enabling this compact model to surpass the single-turn accuracy of its 600B-parameter teacher through majority voting. Beyond its immediate utility for test-time scaling, the DSER framework serves to diagnose the fundamental limitations of current open-weight reasoners. By clearly delineating their shortcomings in self-verification, refinement, and stability, our findings establish a clear research agenda for developing next-generation models with powerful, intrinsic self-evolving capabilities.