Глубокое саморазвивающееся рассуждение
Deep Self-Evolving Reasoning
October 20, 2025
Авторы: Zihan Liu, Shun Zheng, Xumeng Wen, Yang Wang, Jiang Bian, Mao Yang
cs.AI
Аннотация
Длинные цепочки рассуждений стали краеугольным камнем продвинутого мышления в крупных языковых моделях. Хотя недавние фреймворки верификации и уточнения позволили проприетарным моделям решать задачи уровня олимпиад, их эффективность зависит от сильных и надежных возможностей проверки и исправления, которые остаются хрупкими в открытых, менее масштабных моделях. В данной работе показано, что даже при слабых возможностях верификации и уточнения на сложных задачах, пределы рассуждений таких моделей могут быть существенно расширены с помощью вероятностной парадигмы, которую мы называем Глубоким Саморазвивающимся Рассуждением (DSER). Мы концептуализируем итеративное рассуждение как марковскую цепь, где каждый шаг представляет собой стохастический переход в пространстве решений. Ключевая идея заключается в том, что сходимость к правильному решению гарантирована, если вероятность улучшения хотя бы немного превышает вероятность ухудшения. Запуская несколько долгосрочных, саморазвивающихся процессов параллельно, DSER усиливает эти небольшие положительные тенденции, позволяя модели асимптотически приближаться к правильным ответам. Эмпирически мы применяем DSER к модели DeepSeek-R1-0528-Qwen3-8B. На сложном бенчмарке AIME 2024-2025 DSER решает 5 из 9 ранее нерешаемых задач и повышает общую производительность, позволяя этой компактной модели превзойти точность одношагового решения своей 600-миллиардной учительской модели с помощью голосования большинством. Помимо непосредственной пользы для масштабирования на этапе тестирования, фреймворк DSER служит для диагностики фундаментальных ограничений текущих открытых моделей рассуждений. Четко обозначая их недостатки в самопроверке, уточнении и стабильности, наши результаты устанавливают четкую исследовательскую программу для разработки моделей следующего поколения с мощными, внутренними возможностями саморазвития.
English
Long-form chain-of-thought reasoning has become a cornerstone of advanced
reasoning in large language models. While recent verification-refinement
frameworks have enabled proprietary models to solve Olympiad-level problems,
their effectiveness hinges on strong, reliable verification and correction
capabilities, which remain fragile in open-weight, smaller-scale models. This
work demonstrates that even with weak verification and refinement capabilities
on hard tasks, the reasoning limits of such models can be substantially
extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning
(DSER). We conceptualize iterative reasoning as a Markov chain, where each step
represents a stochastic transition in the solution space. The key insight is
that convergence to a correct solution is guaranteed as long as the probability
of improvement marginally exceeds that of degradation. By running multiple
long-horizon, self-evolving processes in parallel, DSER amplifies these small
positive tendencies, enabling the model to asymptotically approach correct
answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On
the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously
unsolvable problems and boosts overall performance, enabling this compact model
to surpass the single-turn accuracy of its 600B-parameter teacher through
majority voting. Beyond its immediate utility for test-time scaling, the DSER
framework serves to diagnose the fundamental limitations of current open-weight
reasoners. By clearly delineating their shortcomings in self-verification,
refinement, and stability, our findings establish a clear research agenda for
developing next-generation models with powerful, intrinsic self-evolving
capabilities.