TERMINATOR: Erlernen optimaler Austrittspunkte für frühzeitiges Stoppen in Chain-of-Thought-Reasoning

Zusammenfassung

Große Reasoning-Modelle (LRMs) erzielen beeindruckende Leistungen bei komplexen Reasoning-Aufgaben durch Chain-of-Thought (CoT)-Reasoning, das es ihnen ermöglicht, Zwischendenkschritte zu generieren, bevor sie zur endgültigen Antwort gelangen. Allerdings neigen LRMs oft zu erheblichem „Overthinking“, indem sie übermäßig viel Rechenzeit aufwenden, selbst nachdem die Antwort bereits früh generiert wurde. Frühere Arbeiten haben die Existenz einer optimalen Reasoning-Länge identifiziert, bei deren Trunkierung die CoT-Ausgaben deutlich verkürzt werden können, ohne dass sich die Leistung praktisch ändert. Die Bestimmung optimaler CoT-Längen für praktische Datensätze ist jedoch höchst anspruchsvoll, da diese vollständig aufgaben- und modellabhängig sind. In diesem Beitrag gehen wir genau dieses Problem an und entwerfen TERMINATOR, eine Early-Exit-Strategie für LRMs während der Inferenz, um Overthinking zu mildern. Die zentrale Idee von TERMINATOR ist, dass die erste Generierung der endgültigen Antwort eines LRMs oft vorhersagbar ist, und wir nutzen diese ersten Antwortpositionen, um einen neuartigen Datensatz optimaler Reasoning-Längen zum Training von TERMINATOR zu erstellen. Durch diesen Ansatz erreicht TERMINATOR signifikante Verkürzungen der CoT-Längen um durchschnittlich 14 %–55 % über vier anspruchsvolle praktische Datensätze hinweg: MATH-500, AIME 2025, HumanEval und GPQA, wobei er gleichzeitig aktuelle state-of-the-art Methoden übertrifft.

English

Large Reasoning Models (LRMs) achieve impressive performance on complex reasoning tasks via Chain-of-Thought (CoT) reasoning, which enables them to generate intermediate thinking tokens before arriving at the final answer. However, LRMs often suffer from significant overthinking, spending excessive compute time even after the answer is generated early on. Prior work has identified the existence of an optimal reasoning length such that truncating reasoning at this point significantly shortens CoT outputs with virtually no change in performance. However, determining optimal CoT lengths for practical datasets is highly non-trivial as they are fully task and model-dependent. In this paper, we precisely address this and design TERMINATOR, an early-exit strategy for LRMs at inference to mitigate overthinking. The central idea underpinning TERMINATOR is that the first arrival of an LRM's final answer is often predictable, and we leverage these first answer positions to create a novel dataset of optimal reasoning lengths to train TERMINATOR. Powered by this approach, TERMINATOR achieves significant reductions in CoT lengths of 14%-55% on average across four challenging practical datasets: MATH-500, AIME 2025, HumanEval, and GPQA, whilst outperforming current state-of-the-art methods.

TERMINATOR: Erlernen optimaler Austrittspunkte für frühzeitiges Stoppen in Chain-of-Thought-Reasoning

TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Zusammenfassung

Support