TERMINATOR : Apprentissage de points de sortie optimaux pour l'arrêt précoce dans le raisonnement en chaîne de pensée

Résumé

Les Grands Modèles de Raisonnement (LRM) obtiennent des performances impressionnantes sur des tâches de raisonnement complexes grâce au raisonnement en Chaîne de Pensée (CoT), qui leur permet de générer des jetons de réflexion intermédiaires avant de parvenir à la réponse finale. Cependant, les LRM souffrent souvent d'une surréflexion significative, gaspillant un temps de calcul excessif même après que la réponse a été générée précocement. Les travaux antérieurs ont identifié l'existence d'une longueur de raisonnement optimale telle que son tronquage à ce point réduit considérablement les sorties CoT avec pratiquement aucun changement de performance. Cependant, déterminer les longueurs CoT optimales pour des jeux de données pratiques est hautement non trivial car elles dépendent entièrement de la tâche et du modèle. Dans cet article, nous abordons précisément ce problème et concevons TERMINATOR, une stratégie de sortie anticipée pour les LRM lors de l'inférence afin d'atténuer la surréflexion. L'idée centrale de TERMINATOR est que la première apparition de la réponse finale d'un LRM est souvent prévisible, et nous exploitons ces premières positions de réponse pour créer un nouveau jeu de données de longueurs de raisonnement optimales afin d'entraîner TERMINATOR. Grâce à cette approche, TERMINATOR réalise des réductions significatives des longueurs CoT de 14 % à 55 % en moyenne sur quatre jeux de données pratiques et exigeants : MATH-500, AIME 2025, HumanEval et GPQA, tout en surpassant les méthodes actuelles de l'état de l'art.

English

Large Reasoning Models (LRMs) achieve impressive performance on complex reasoning tasks via Chain-of-Thought (CoT) reasoning, which enables them to generate intermediate thinking tokens before arriving at the final answer. However, LRMs often suffer from significant overthinking, spending excessive compute time even after the answer is generated early on. Prior work has identified the existence of an optimal reasoning length such that truncating reasoning at this point significantly shortens CoT outputs with virtually no change in performance. However, determining optimal CoT lengths for practical datasets is highly non-trivial as they are fully task and model-dependent. In this paper, we precisely address this and design TERMINATOR, an early-exit strategy for LRMs at inference to mitigate overthinking. The central idea underpinning TERMINATOR is that the first arrival of an LRM's final answer is often predictable, and we leverage these first answer positions to create a novel dataset of optimal reasoning lengths to train TERMINATOR. Powered by this approach, TERMINATOR achieves significant reductions in CoT lengths of 14%-55% on average across four challenging practical datasets: MATH-500, AIME 2025, HumanEval, and GPQA, whilst outperforming current state-of-the-art methods.

TERMINATOR : Apprentissage de points de sortie optimaux pour l'arrêt précoce dans le raisonnement en chaîne de pensée

TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Résumé

Support