심층 자기 진화 추론
Deep Self-Evolving Reasoning
October 20, 2025
저자: Zihan Liu, Shun Zheng, Xumeng Wen, Yang Wang, Jiang Bian, Mao Yang
cs.AI
초록
장문의 사고 연쇄(long-form chain-of-thought) 추론은 대규모 언어 모델의 고급 추론 능력의 핵심 요소로 자리 잡았습니다. 최근 검증-개선(verification-refinement) 프레임워크를 통해 독점 모델들이 올림피아드 수준의 문제를 해결할 수 있게 되었지만, 이러한 효과는 강력하고 신뢰할 수 있는 검증 및 수정 능력에 의존하며, 이는 오픈 웨이트(open-weight) 소규모 모델에서는 여전히 취약합니다. 본 연구는 어려운 과제에서 약한 검증 및 개선 능력만으로도, 우리가 '심층 자기 진화 추론(Deep Self-Evolving Reasoning, DSER)'이라 명명한 확률적 패러다임을 통해 이러한 모델들의 추론 한계를 크게 확장할 수 있음을 보여줍니다. 우리는 반복적 추론을 마르코프 체인(Markov chain)으로 개념화하며, 각 단계는 해결 공간에서의 확률적 전이를 나타냅니다. 핵심 통찰은 개선의 확률이 악화의 확률을 약간만 초과하더라도 올바른 해결책으로의 수렴이 보장된다는 것입니다. DSER는 여러 장기적 자기 진화 프로세스를 병렬로 실행함으로써 이러한 작은 긍정적 경향을 증폭시켜 모델이 점진적으로 정답에 접근할 수 있도록 합니다. 실험적으로, 우리는 DSER를 DeepSeek-R1-0528-Qwen3-8B 모델에 적용했습니다. 도전적인 AIME 2024-2025 벤치마크에서 DSER는 이전에 해결할 수 없었던 9개 문제 중 5개를 해결하고 전반적인 성능을 향상시켰으며, 이 소규모 모델이 다수결(majority voting)을 통해 600B 파라미터 규모의 교사 모델의 단일 턴 정확도를 능가할 수 있게 했습니다. 테스트 시 스케일링(test-time scaling)에 대한 즉각적인 유용성을 넘어, DSER 프레임워크는 현재 오픈 웨이트 추론 모델들의 근본적인 한계를 진단하는 데 기여합니다. 자기 검증, 개선 및 안정성에서의 결함을 명확히 규명함으로써, 본 연구 결과는 강력한 내재적 자기 진화 능력을 갖춘 차세대 모델 개발을 위한 명확한 연구 방향을 제시합니다.
English
Long-form chain-of-thought reasoning has become a cornerstone of advanced
reasoning in large language models. While recent verification-refinement
frameworks have enabled proprietary models to solve Olympiad-level problems,
their effectiveness hinges on strong, reliable verification and correction
capabilities, which remain fragile in open-weight, smaller-scale models. This
work demonstrates that even with weak verification and refinement capabilities
on hard tasks, the reasoning limits of such models can be substantially
extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning
(DSER). We conceptualize iterative reasoning as a Markov chain, where each step
represents a stochastic transition in the solution space. The key insight is
that convergence to a correct solution is guaranteed as long as the probability
of improvement marginally exceeds that of degradation. By running multiple
long-horizon, self-evolving processes in parallel, DSER amplifies these small
positive tendencies, enabling the model to asymptotically approach correct
answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On
the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously
unsolvable problems and boosts overall performance, enabling this compact model
to surpass the single-turn accuracy of its 600B-parameter teacher through
majority voting. Beyond its immediate utility for test-time scaling, the DSER
framework serves to diagnose the fundamental limitations of current open-weight
reasoners. By clearly delineating their shortcomings in self-verification,
refinement, and stability, our findings establish a clear research agenda for
developing next-generation models with powerful, intrinsic self-evolving
capabilities.