TERMINATOR: Het Leren van Optimale Afsluitpunten voor Vroegtijdig Stoppen in Redeneren met Gedachteketens

Samenvatting

Grote Redeneermodellen (LRM's) behalen indrukwekkende prestaties op complexe redeneertaken via Chain-of-Thought (CoT)-redenering, waardoor ze tussenliggende denkstappen kunnen genereren voordat ze tot het definitieve antwoord komen. LRM's hebben echter vaak last van significant *overthinking*, waarbij ze excessieve rekentijd besteden, zelfs nadat het antwoord reeds vroegtijdig is gegenereerd. Eerder onderzoek heeft het bestaan geïdentificeerd van een optimale redeneerlengte, zodanig dat het afkappen van de redenering op dit punt de CoT-uitvoer aanzienlijk verkort met vrijwel geen verandering in prestaties. Het bepalen van optimale CoT-lengtes voor praktische datasets is echter hoogst niet-triviaal, aangezien deze volledig taak- en modelafhankelijk zijn. In dit artikel pakken we dit precies aan en ontwerpen we TERMINATOR, een *early-exit*-strategie voor LRM's tijdens de inferentie om *overthinking* te verminderen. Het centrale idee achter TERMINATOR is dat de eerste verschijning van het definitieve antwoord van een LRM vaak voorspelbaar is, en we benutten deze eerste antwoordposities om een nieuwe dataset van optimale redeneerlengtes te creëren om TERMINATOR te trainen. Dankzij deze aanpak bereikt TERMINATOR significante verkortingen van de CoT-lengtes met gemiddeld 14%-55% op vier uitdagende praktische datasets: MATH-500, AIME 2025, HumanEval en GPQA, terwijl het tegelijkertijd de huidige state-of-the-art methoden overtreft.

English

Large Reasoning Models (LRMs) achieve impressive performance on complex reasoning tasks via Chain-of-Thought (CoT) reasoning, which enables them to generate intermediate thinking tokens before arriving at the final answer. However, LRMs often suffer from significant overthinking, spending excessive compute time even after the answer is generated early on. Prior work has identified the existence of an optimal reasoning length such that truncating reasoning at this point significantly shortens CoT outputs with virtually no change in performance. However, determining optimal CoT lengths for practical datasets is highly non-trivial as they are fully task and model-dependent. In this paper, we precisely address this and design TERMINATOR, an early-exit strategy for LRMs at inference to mitigate overthinking. The central idea underpinning TERMINATOR is that the first arrival of an LRM's final answer is often predictable, and we leverage these first answer positions to create a novel dataset of optimal reasoning lengths to train TERMINATOR. Powered by this approach, TERMINATOR achieves significant reductions in CoT lengths of 14%-55% on average across four challenging practical datasets: MATH-500, AIME 2025, HumanEval, and GPQA, whilst outperforming current state-of-the-art methods.

TERMINATOR: Het Leren van Optimale Afsluitpunten voor Vroegtijdig Stoppen in Redeneren met Gedachteketens

TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Samenvatting

Support