Остановка при сходимости рассуждения: семантически сохраняющий досрочный выход для моделей рассуждения

Аннотация

Большие модели рассуждений (Large Reasoning Models, LRMs) достигают высокой производительности за счёт генерации длинных цепочек размышлений (CoT), однако часто склонны к «переусложнению», продолжая рассуждать после того, как решение уже стабилизировалось, что приводит к избыточному расходу токенов и увеличению задержки. Существующие методы досрочного выхода во время инференса в основном опираются на сигналы на уровне ответа, такие как уверенность или согласованность пробных ответов, чтобы принять решение об остановке. Однако эти сигналы отражают скорее готовность ответа, а не сходимость рассуждений: они могут сработать до того, как модель завершит исследование или самокоррекцию, вызывая преждевременный выход, который может снизить точность финального ответа и оставить сохранённую цепочку рассуждений семантически неполной. Мы выявляем семантическую избыточность на уровне рассуждений как дополнительный сигнал для семантически сохраняющего досрочного выхода: когда последовательные шаги больше не добавляют нового прогресса, а возвращаются к уже установленным выводам, траектория рассуждений, вероятно, сошлась. Основываясь на этом понимании, мы предлагаем PUMA — подключаемую (plug-and-play) структуру, которая объединяет лёгкий детектор избыточности с верификацией на уровне ответа. Детектор отмечает семантически избыточных кандидатов для выхода, а верификация подтверждает, безопасно ли останавливаться, что позволяет PUMA удалить избыточное продолжение, сохраняя при этом точность ответа и связный префикс рассуждений. На пяти LRM и пяти сложных эталонных наборах данных для рассуждений PUMA достигает в среднем 26,2% сокращения токенов при сохранении точности и качества удержанной CoT. Дополнительные эксперименты по генерации кода, нуль-шотному визуально-языковому рассуждению и интернализации изученной политики остановки показывают, что семантическая избыточность на уровне рассуждений является надёжным, переносимым и обучаемым сигналом для эффективного рассуждения. Наш код доступен по адресу: https://github.com/giovanni-vaccarino/PUMA.

English

Large Reasoning Models (LRMs) achieve strong performance by generating long chains of thought (CoT), but often overthink, continuing to reason after a solution has already stabilized and thereby wasting tokens and increasing latency. Existing inference-time early-exit methods rely primarily on answer-level signals, such as confidence or trial-answer consistency, to decide when to stop. However, these signals mainly reflect answer readiness rather than reasoning convergence: they may trigger before the model has finished exploring or self-correcting, causing premature exits that can degrade final-answer accuracy and leave the retained reasoning chain semantically incomplete. We identify reasoning-level semantic redundancy as a complementary signal for semantic-preserving early exit: when successive steps no longer add novel progress and instead revisit established conclusions, the reasoning trajectory has likely converged. Building on this insight, we propose PUMA, a plug-and-play framework that combines a lightweight Redundancy Detector with answer-level verification. The detector flags semantically redundant candidate exits, while verification confirms whether stopping is safe, allowing PUMA to remove redundant continuation while preserving both answer accuracy and a coherent reasoning prefix. Across five LRMs and five challenging reasoning benchmarks, PUMA achieves 26.2% average token reduction while preserving accuracy and retained CoT quality. Additional experiments on code generation, zero-shot vision-language reasoning, and learned stopping-policy internalization further demonstrate that reasoning-level redundancy is a robust, transferable, and learnable signal for efficient reasoning. Our code is available at https://github.com/giovanni-vaccarino/PUMA.