ChatPaper.aiChatPaper

Глубокое саморазвивающееся рассуждение

Deep Self-Evolving Reasoning

October 20, 2025
Авторы: Zihan Liu, Shun Zheng, Xumeng Wen, Yang Wang, Jiang Bian, Mao Yang
cs.AI

Аннотация

Длинные цепочки рассуждений стали краеугольным камнем продвинутого мышления в крупных языковых моделях. Хотя недавние фреймворки верификации и уточнения позволили проприетарным моделям решать задачи уровня олимпиад, их эффективность зависит от сильных и надежных возможностей проверки и исправления, которые остаются хрупкими в открытых, менее масштабных моделях. В данной работе показано, что даже при слабых возможностях верификации и уточнения на сложных задачах, пределы рассуждений таких моделей могут быть существенно расширены с помощью вероятностной парадигмы, которую мы называем Глубоким Саморазвивающимся Рассуждением (DSER). Мы концептуализируем итеративное рассуждение как марковскую цепь, где каждый шаг представляет собой стохастический переход в пространстве решений. Ключевая идея заключается в том, что сходимость к правильному решению гарантирована, если вероятность улучшения хотя бы немного превышает вероятность ухудшения. Запуская несколько долгосрочных, саморазвивающихся процессов параллельно, DSER усиливает эти небольшие положительные тенденции, позволяя модели асимптотически приближаться к правильным ответам. Эмпирически мы применяем DSER к модели DeepSeek-R1-0528-Qwen3-8B. На сложном бенчмарке AIME 2024-2025 DSER решает 5 из 9 ранее нерешаемых задач и повышает общую производительность, позволяя этой компактной модели превзойти точность одношагового решения своей 600-миллиардной учительской модели с помощью голосования большинством. Помимо непосредственной пользы для масштабирования на этапе тестирования, фреймворк DSER служит для диагностики фундаментальных ограничений текущих открытых моделей рассуждений. Четко обозначая их недостатки в самопроверке, уточнении и стабильности, наши результаты устанавливают четкую исследовательскую программу для разработки моделей следующего поколения с мощными, внутренними возможностями саморазвития.
English
Long-form chain-of-thought reasoning has become a cornerstone of advanced reasoning in large language models. While recent verification-refinement frameworks have enabled proprietary models to solve Olympiad-level problems, their effectiveness hinges on strong, reliable verification and correction capabilities, which remain fragile in open-weight, smaller-scale models. This work demonstrates that even with weak verification and refinement capabilities on hard tasks, the reasoning limits of such models can be substantially extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning (DSER). We conceptualize iterative reasoning as a Markov chain, where each step represents a stochastic transition in the solution space. The key insight is that convergence to a correct solution is guaranteed as long as the probability of improvement marginally exceeds that of degradation. By running multiple long-horizon, self-evolving processes in parallel, DSER amplifies these small positive tendencies, enabling the model to asymptotically approach correct answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously unsolvable problems and boosts overall performance, enabling this compact model to surpass the single-turn accuracy of its 600B-parameter teacher through majority voting. Beyond its immediate utility for test-time scaling, the DSER framework serves to diagnose the fundamental limitations of current open-weight reasoners. By clearly delineating their shortcomings in self-verification, refinement, and stability, our findings establish a clear research agenda for developing next-generation models with powerful, intrinsic self-evolving capabilities.
PDF92October 21, 2025