TERMINATOR: Apprendimento di Punti di Uscita Ottimali per l'Arresto Anticipato nel Ragionamento a Catena di Pensieri

Abstract

I Large Reasoning Model (LRM) ottengono prestazioni impressionanti su compiti di ragionamento complesso grazie al ragionamento a Catena di Pensiero (Chain-of-Thought, CoT), che consente loro di generare token di pensiero intermedi prima di arrivare alla risposta finale. Tuttavia, gli LRM soffrono spesso di un significativo "overthinking", impiegando un tempo di calcolo eccessivo anche dopo che la risposta è stata generata precocemente. Studi precedenti hanno identificato l'esistenza di una lunghezza di ragionamento ottimale tale per cui troncare il ragionamento in questo punto riduce significativamente gli output CoT con un cambiamento pressoché nullo delle prestazioni. Tuttavia, determinare le lunghezze CoT ottimali per dataset pratici è altamente non banale, poiché dipendono interamente dal compito e dal modello. In questo articolo, affrontiamo precisamente questo problema e progettiamo TERMINATOR, una strategia di early-exit per gli LRM durante l'inferenza, per mitigare l'overthinking. L'idea centrale alla base di TERMINATOR è che la prima occorrenza della risposta finale di un LRM è spesso prevedibile, e sfruttiamo queste prime posizioni della risposta per creare un nuovo dataset di lunghezze di ragionamento ottimali per addestrare TERMINATOR. Grazie a questo approccio, TERMINATOR raggiunge riduzioni significative delle lunghezze CoT, in media dal 14% al 55%, su quattro dataset pratici e impegnativi: MATH-500, AIME 2025, HumanEval e GPQA, superando al contempo i metodi state-of-the-art attuali.

English

Large Reasoning Models (LRMs) achieve impressive performance on complex reasoning tasks via Chain-of-Thought (CoT) reasoning, which enables them to generate intermediate thinking tokens before arriving at the final answer. However, LRMs often suffer from significant overthinking, spending excessive compute time even after the answer is generated early on. Prior work has identified the existence of an optimal reasoning length such that truncating reasoning at this point significantly shortens CoT outputs with virtually no change in performance. However, determining optimal CoT lengths for practical datasets is highly non-trivial as they are fully task and model-dependent. In this paper, we precisely address this and design TERMINATOR, an early-exit strategy for LRMs at inference to mitigate overthinking. The central idea underpinning TERMINATOR is that the first arrival of an LRM's final answer is often predictable, and we leverage these first answer positions to create a novel dataset of optimal reasoning lengths to train TERMINATOR. Powered by this approach, TERMINATOR achieves significant reductions in CoT lengths of 14%-55% on average across four challenging practical datasets: MATH-500, AIME 2025, HumanEval, and GPQA, whilst outperforming current state-of-the-art methods.

TERMINATOR: Apprendimento di Punti di Uscita Ottimali per l'Arresto Anticipato nel Ragionamento a Catena di Pensieri

TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Abstract

Support