Знает ли ваша модель рассуждений неявно, когда прекратить размышлять?

Аннотация

Последние достижения в области больших моделей рассуждений (LRM) значительно повысили их способности к решению сложных задач за счет использования длинных цепочек рассуждений (CoT). Однако данный подход часто приводит к существенной избыточности, снижая вычислительную эффективность и вызывая значительные задержки в системах реального времени. Новейшие исследования показывают, что более длинные цепочки рассуждений часто не коррелируют с правильностью ответа и могут даже ухудшать точность. При дальнейшем углубленном анализе этого феномена мы неожиданно обнаружили и эмпирически подтвердили, что LRM неявно обладают способностью определять подходящий момент для прекращения рассуждений, однако эта возможность скрыта современными парадигмами сэмплирования. Мотивированные этим, мы представляем SAGE (Self-Aware Guided Efficient Reasoning) — новую парадигму сэмплирования, раскрывающую данный потенциал эффективного рассуждения. Более того, интеграция SAGE в качестве смешанного сэмплирования в групповое обучение с подкреплением (SAGE-RL) позволяет эффективно внедрять выявленные SAGE паттерны эффективного рассуждения в стандартный вывод pass@1, что существенно повышает как точность рассуждений, так и эффективность LRM на множестве сложных математических тестов.

English

Recent advancements in large reasoning models (LRMs) have greatly improved their capabilities on complex reasoning tasks through Long Chains of Thought (CoTs). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. Recent studies show that longer reasoning chains are frequently uncorrelated with correctness and can even be detrimental to accuracy. In a further in-depth analysis of this phenomenon, we surprisingly uncover and empirically verify that LRMs implicitly know the appropriate time to stop thinking, while this capability is obscured by current sampling paradigms. Motivated by this, we introduce SAGE (Self-Aware Guided Efficient Reasoning), a novel sampling paradigm that unleashes this efficient reasoning potential. Furthermore, integrating SAGE as mixed sampling into group-based reinforcement learning (SAGE-RL) enables SAGE-RL to effectively incorporate SAGE-discovered efficient reasoning patterns into standard pass@1 inference, markedly enhancing both the reasoning accuracy and efficiency of LRMs across multiple challenging mathematical benchmarks.

Знает ли ваша модель рассуждений неявно, когда прекратить размышлять?

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Аннотация

Support