ChatPaper.aiChatPaper

THOUGHTTERMINATOR : Évaluation, Calibration et Atténuation de la Surréflexion dans les Modèles de Raisonnement

THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models

April 17, 2025
Auteurs: Xiao Pu, Michael Saxon, Wenyue Hua, William Yang Wang
cs.AI

Résumé

Les modèles de raisonnement ont démontré des performances impressionnantes sur des tâches difficiles où les modèles de langage traditionnels peinent. Cependant, beaucoup souffrent du problème de surréflexion—générant un grand nombre de tokens inutiles qui n'améliorent pas la précision sur une question. Nous introduisons des mesures approximatives de la difficulté au niveau du problème et montrons qu'une relation claire existe entre la difficulté du problème et le nombre optimal de tokens à utiliser. Nous évaluons également dans quelle mesure une variété de modèles de raisonnement sont bien calibrés en termes d'allocation efficace du nombre optimal de tokens. Nous constatons qu'en général, les modèles de raisonnement sont mal calibrés, en particulier sur des problèmes faciles. Pour évaluer la calibration sur des questions simples, nous introduisons DUMB500, un ensemble de données de problèmes extrêmement faciles en mathématiques, raisonnement, code et tâches, et évaluons conjointement les modèles de raisonnement sur ces exemples simples et sur des exemples extrêmement difficiles issus de benchmarks de pointe existants dans le même domaine de tâche. Enfin, nous introduisons THOUGHTTERMINATOR, une technique de décodage en boîte noire sans apprentissage qui améliore significativement la calibration des modèles de raisonnement.
English
Reasoning models have demonstrated impressive performance on difficult tasks that traditional language models struggle at. However, many are plagued with the problem of overthinking--generating large amounts of unnecessary tokens which don't improve accuracy on a question. We introduce approximate measures of problem-level difficulty and demonstrate that a clear relationship between problem difficulty and optimal token spend exists, and evaluate how well calibrated a variety of reasoning models are in terms of efficiently allocating the optimal token count. We find that in general, reasoning models are poorly calibrated, particularly on easy problems. To evaluate calibration on easy questions we introduce DUMB500, a dataset of extremely easy math, reasoning, code, and task problems, and jointly evaluate reasoning model on these simple examples and extremely difficult examples from existing frontier benchmarks on the same task domain. Finally, we introduce THOUGHTTERMINATOR, a training-free black box decoding technique that significantly improves reasoning model calibration.

Summary

AI-Generated Summary

PDF242April 22, 2025