TERMINATOR: Aprendendo Pontos de Saída Ótimos para Parada Antecipada no Raciocínio em Cadeia de Pensamentos

Resumo

Os Grandes Modelos de Raciocínio (LRMs) alcançam desempenho impressionante em tarefas complexas de raciocínio através do raciocínio em Cadeia de Pensamento (CoT), que lhes permite gerar tokens intermediários de pensamento antes de chegar à resposta final. No entanto, os LRMs frequentemente sofrem de excesso de reflexão (overthinking), gastando tempo computacional excessivo mesmo após a resposta ser gerada precocemente. Trabalhos anteriores identificaram a existência de um comprimento de raciocínio ótimo, de modo que truncar o raciocínio neste ponto encurta significativamente as saídas CoT com praticamente nenhuma alteração no desempenho. No entanto, determinar os comprimentos CoT ótimos para conjuntos de dados práticos é altamente complexo, pois são totalmente dependentes da tarefa e do modelo. Neste artigo, abordamos precisamente este problema e projetamos o TERMINATOR, uma estratégia de saída antecipada (early-exit) para LRMs durante a inferência para mitigar o excesso de reflexão. A ideia central do TERMINATOR é que a primeira ocorrência da resposta final de um LRM é frequentemente previsível, e nós aproveitamos estas primeiras posições de resposta para criar um novo conjunto de dados de comprimentos de raciocínio ótimos para treinar o TERMINATOR. Com base nesta abordagem, o TERMINATOR alcança reduções significativas nos comprimentos CoT de 14% a 55% em média em quatro conjuntos de dados práticos e desafiadores: MATH-500, AIME 2025, HumanEval e GPQA, superando ao mesmo tempo os métodos state-of-the-art atuais.

English

Large Reasoning Models (LRMs) achieve impressive performance on complex reasoning tasks via Chain-of-Thought (CoT) reasoning, which enables them to generate intermediate thinking tokens before arriving at the final answer. However, LRMs often suffer from significant overthinking, spending excessive compute time even after the answer is generated early on. Prior work has identified the existence of an optimal reasoning length such that truncating reasoning at this point significantly shortens CoT outputs with virtually no change in performance. However, determining optimal CoT lengths for practical datasets is highly non-trivial as they are fully task and model-dependent. In this paper, we precisely address this and design TERMINATOR, an early-exit strategy for LRMs at inference to mitigate overthinking. The central idea underpinning TERMINATOR is that the first arrival of an LRM's final answer is often predictable, and we leverage these first answer positions to create a novel dataset of optimal reasoning lengths to train TERMINATOR. Powered by this approach, TERMINATOR achieves significant reductions in CoT lengths of 14%-55% on average across four challenging practical datasets: MATH-500, AIME 2025, HumanEval, and GPQA, whilst outperforming current state-of-the-art methods.

TERMINATOR: Aprendendo Pontos de Saída Ótimos para Parada Antecipada no Raciocínio em Cadeia de Pensamentos

TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Resumo

Support