ChatPaper.aiChatPaper

Остановка при сходимости рассуждения: семантически сохраняющий досрочный выход для моделей рассуждения

Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

May 17, 2026
Авторы: Dehai Min, Giovanni Vaccarino, Huiyi Chen, Yongliang Wu, Gal Yona, Lu Cheng
cs.AI

Аннотация

Большие модели рассуждений (Large Reasoning Models, LRMs) достигают высокой производительности за счёт генерации длинных цепочек размышлений (CoT), однако часто склонны к «переусложнению», продолжая рассуждать после того, как решение уже стабилизировалось, что приводит к избыточному расходу токенов и увеличению задержки. Существующие методы досрочного выхода во время инференса в основном опираются на сигналы на уровне ответа, такие как уверенность или согласованность пробных ответов, чтобы принять решение об остановке. Однако эти сигналы отражают скорее готовность ответа, а не сходимость рассуждений: они могут сработать до того, как модель завершит исследование или самокоррекцию, вызывая преждевременный выход, который может снизить точность финального ответа и оставить сохранённую цепочку рассуждений семантически неполной. Мы выявляем семантическую избыточность на уровне рассуждений как дополнительный сигнал для семантически сохраняющего досрочного выхода: когда последовательные шаги больше не добавляют нового прогресса, а возвращаются к уже установленным выводам, траектория рассуждений, вероятно, сошлась. Основываясь на этом понимании, мы предлагаем PUMA — подключаемую (plug-and-play) структуру, которая объединяет лёгкий детектор избыточности с верификацией на уровне ответа. Детектор отмечает семантически избыточных кандидатов для выхода, а верификация подтверждает, безопасно ли останавливаться, что позволяет PUMA удалить избыточное продолжение, сохраняя при этом точность ответа и связный префикс рассуждений. На пяти LRM и пяти сложных эталонных наборах данных для рассуждений PUMA достигает в среднем 26,2% сокращения токенов при сохранении точности и качества удержанной CoT. Дополнительные эксперименты по генерации кода, нуль-шотному визуально-языковому рассуждению и интернализации изученной политики остановки показывают, что семантическая избыточность на уровне рассуждений является надёжным, переносимым и обучаемым сигналом для эффективного рассуждения. Наш код доступен по адресу: https://github.com/giovanni-vaccarino/PUMA.
English
Large Reasoning Models (LRMs) achieve strong performance by generating long chains of thought (CoT), but often overthink, continuing to reason after a solution has already stabilized and thereby wasting tokens and increasing latency. Existing inference-time early-exit methods rely primarily on answer-level signals, such as confidence or trial-answer consistency, to decide when to stop. However, these signals mainly reflect answer readiness rather than reasoning convergence: they may trigger before the model has finished exploring or self-correcting, causing premature exits that can degrade final-answer accuracy and leave the retained reasoning chain semantically incomplete. We identify reasoning-level semantic redundancy as a complementary signal for semantic-preserving early exit: when successive steps no longer add novel progress and instead revisit established conclusions, the reasoning trajectory has likely converged. Building on this insight, we propose PUMA, a plug-and-play framework that combines a lightweight Redundancy Detector with answer-level verification. The detector flags semantically redundant candidate exits, while verification confirms whether stopping is safe, allowing PUMA to remove redundant continuation while preserving both answer accuracy and a coherent reasoning prefix. Across five LRMs and five challenging reasoning benchmarks, PUMA achieves 26.2% average token reduction while preserving accuracy and retained CoT quality. Additional experiments on code generation, zero-shot vision-language reasoning, and learned stopping-policy internalization further demonstrate that reasoning-level redundancy is a robust, transferable, and learnable signal for efficient reasoning. Our code is available at https://github.com/giovanni-vaccarino/PUMA.