THOUGHTTERMINATOR : Évaluation, Calibration et Atténuation de la Surréflexion dans les Modèles de Raisonnement
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models
April 17, 2025
Auteurs: Xiao Pu, Michael Saxon, Wenyue Hua, William Yang Wang
cs.AI
Résumé
Les modèles de raisonnement ont démontré des performances impressionnantes sur des tâches difficiles où les modèles de langage traditionnels peinent. Cependant, beaucoup souffrent du problème de surréflexion—générant un grand nombre de tokens inutiles qui n'améliorent pas la précision sur une question. Nous introduisons des mesures approximatives de la difficulté au niveau du problème et montrons qu'une relation claire existe entre la difficulté du problème et le nombre optimal de tokens à utiliser. Nous évaluons également dans quelle mesure une variété de modèles de raisonnement sont bien calibrés en termes d'allocation efficace du nombre optimal de tokens. Nous constatons qu'en général, les modèles de raisonnement sont mal calibrés, en particulier sur des problèmes faciles. Pour évaluer la calibration sur des questions simples, nous introduisons DUMB500, un ensemble de données de problèmes extrêmement faciles en mathématiques, raisonnement, code et tâches, et évaluons conjointement les modèles de raisonnement sur ces exemples simples et sur des exemples extrêmement difficiles issus de benchmarks de pointe existants dans le même domaine de tâche. Enfin, nous introduisons THOUGHTTERMINATOR, une technique de décodage en boîte noire sans apprentissage qui améliore significativement la calibration des modèles de raisonnement.
English
Reasoning models have demonstrated impressive performance on difficult tasks
that traditional language models struggle at. However, many are plagued with
the problem of overthinking--generating large amounts of unnecessary tokens
which don't improve accuracy on a question. We introduce approximate measures
of problem-level difficulty and demonstrate that a clear relationship between
problem difficulty and optimal token spend exists, and evaluate how well
calibrated a variety of reasoning models are in terms of efficiently allocating
the optimal token count. We find that in general, reasoning models are poorly
calibrated, particularly on easy problems. To evaluate calibration on easy
questions we introduce DUMB500, a dataset of extremely easy math, reasoning,
code, and task problems, and jointly evaluate reasoning model on these simple
examples and extremely difficult examples from existing frontier benchmarks on
the same task domain. Finally, we introduce THOUGHTTERMINATOR, a training-free
black box decoding technique that significantly improves reasoning model
calibration.Summary
AI-Generated Summary