THOUGHTTERMINATOR: Benchmarking, Kalibrierung und Minderung von Überdenken in Reasoning-Modellen
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models
April 17, 2025
Autoren: Xiao Pu, Michael Saxon, Wenyue Hua, William Yang Wang
cs.AI
Zusammenfassung
Vernunftmodelle haben beeindruckende Leistungen bei schwierigen Aufgaben gezeigt, bei denen traditionelle Sprachmodelle Schwierigkeiten haben. Viele leiden jedoch unter dem Problem des Überdenkens – sie erzeugen große Mengen unnötiger Tokens, die die Genauigkeit bei einer Frage nicht verbessern. Wir führen ungefähre Maße für die Schwierigkeit auf Problemebene ein und zeigen, dass eine klare Beziehung zwischen der Schwierigkeit eines Problems und dem optimalen Token-Verbrauch besteht. Außerdem bewerten wir, wie gut verschiedene Vernunftmodelle darin sind, die optimale Token-Anzahl effizient zuzuweisen. Wir stellen fest, dass Vernunftmodelle im Allgemeinen schlecht kalibriert sind, insbesondere bei einfachen Problemen. Um die Kalibrierung bei einfachen Fragen zu bewerten, führen wir DUMB500 ein, einen Datensatz mit extrem einfachen mathematischen, logischen, Code- und Aufgabenproblemen, und bewerten Vernunftmodelle sowohl anhand dieser einfachen Beispiele als auch anhand extrem schwieriger Beispiele aus bestehenden Benchmark-Tests im gleichen Aufgabenbereich. Schließlich stellen wir THOUGHTTERMINATOR vor, eine trainingsfreie Black-Box-Decodierungstechnik, die die Kalibrierung von Vernunftmodellen erheblich verbessert.
English
Reasoning models have demonstrated impressive performance on difficult tasks
that traditional language models struggle at. However, many are plagued with
the problem of overthinking--generating large amounts of unnecessary tokens
which don't improve accuracy on a question. We introduce approximate measures
of problem-level difficulty and demonstrate that a clear relationship between
problem difficulty and optimal token spend exists, and evaluate how well
calibrated a variety of reasoning models are in terms of efficiently allocating
the optimal token count. We find that in general, reasoning models are poorly
calibrated, particularly on easy problems. To evaluate calibration on easy
questions we introduce DUMB500, a dataset of extremely easy math, reasoning,
code, and task problems, and jointly evaluate reasoning model on these simple
examples and extremely difficult examples from existing frontier benchmarks on
the same task domain. Finally, we introduce THOUGHTTERMINATOR, a training-free
black box decoding technique that significantly improves reasoning model
calibration.Summary
AI-Generated Summary