ТЕРМИНАТОР: Обучение оптимальным точкам выхода для досрочной остановки в цепочечных рассуждениях

Аннотация

Крупные модели логического вывода (LRM) демонстрируют впечатляющие результаты в решении сложных задач благодаря использованию цепочек рассуждений (CoT), что позволяет им генерировать промежуточные "мыслительные" токены перед получением окончательного ответа. Однако LRM часто страдают от значительного "передумывания", тратя чрезмерные вычислительные ресурсы даже после того, как ответ был сгенерирован на раннем этапе. Предыдущие исследования выявили существование оптимальной длины рассуждения, при усечении до которой значительно сокращается объем вывода CoT практически без потери качества. Однако определение оптимальной длины CoT для практических наборов данных является крайне нетривиальной задачей, поскольку она полностью зависит от конкретной задачи и модели. В данной работе мы предлагаем точное решение этой проблемы — TERMINATOR, стратегию досрочного завершения вывода для LRM, позволяющую снизить эффект "передумывания". Ключевая идея TERMINATOR заключается в том, что первое появление окончательного ответа модели часто предсказуемо, и мы используем эти позиции первых ответов для создания нового набора данных оптимальных длин рассуждений для обучения TERMINATOR. Благодаря этому подходу TERMINATOR достигает значительного сокращения длины CoT в среднем на 14–55% на четырех сложных практических наборах данных: MATH-500, AIME 2025, HumanEval и GPQA, превосходя при этом современные state-of-the-art методы.

English

Large Reasoning Models (LRMs) achieve impressive performance on complex reasoning tasks via Chain-of-Thought (CoT) reasoning, which enables them to generate intermediate thinking tokens before arriving at the final answer. However, LRMs often suffer from significant overthinking, spending excessive compute time even after the answer is generated early on. Prior work has identified the existence of an optimal reasoning length such that truncating reasoning at this point significantly shortens CoT outputs with virtually no change in performance. However, determining optimal CoT lengths for practical datasets is highly non-trivial as they are fully task and model-dependent. In this paper, we precisely address this and design TERMINATOR, an early-exit strategy for LRMs at inference to mitigate overthinking. The central idea underpinning TERMINATOR is that the first arrival of an LRM's final answer is often predictable, and we leverage these first answer positions to create a novel dataset of optimal reasoning lengths to train TERMINATOR. Powered by this approach, TERMINATOR achieves significant reductions in CoT lengths of 14%-55% on average across four challenging practical datasets: MATH-500, AIME 2025, HumanEval, and GPQA, whilst outperforming current state-of-the-art methods.

ТЕРМИНАТОР: Обучение оптимальным точкам выхода для досрочной остановки в цепочечных рассуждениях

TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Аннотация

Support