ChatPaper.aiChatPaper

THOUGHTTERMINATOR: Benchmarken, Kalibreren en Mitigeren van Overdenken in Redeneermodellen

THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models

April 17, 2025
Auteurs: Xiao Pu, Michael Saxon, Wenyue Hua, William Yang Wang
cs.AI

Samenvatting

Redeneermodellen hebben indrukwekkende prestaties getoond op moeilijke taken waar traditionele taalmodelen moeite mee hebben. Veel modellen kampen echter met het probleem van overdenken—het genereren van grote hoeveelheden onnodige tokens die de nauwkeurigheid van een vraag niet verbeteren. We introduceren benaderende maatstaven voor probleemniveau-moeilijkheid en tonen aan dat er een duidelijk verband bestaat tussen probleemmoeilijkheid en optimale tokenbesteding, en evalueren hoe goed een verscheidenheid aan redeneermodellen zijn afgestemd op het efficiënt toewijzen van het optimale aantal tokens. We constateren dat redeneermodellen over het algemeen slecht zijn afgestemd, vooral op eenvoudige problemen. Om de afstemming op eenvoudige vragen te evalueren, introduceren we DUMB500, een dataset van extreem eenvoudige wiskunde-, redeneer-, code- en taakproblemen, en evalueren we redeneermodellen gezamenlijk op deze eenvoudige voorbeelden en extreem moeilijke voorbeelden uit bestaande toonaangevende benchmarks binnen hetzelfde taakdomein. Tot slot introduceren we THOUGHTTERMINATOR, een trainingsvrije black box-decoderingstechniek die de afstemming van redeneermodellen aanzienlijk verbetert.
English
Reasoning models have demonstrated impressive performance on difficult tasks that traditional language models struggle at. However, many are plagued with the problem of overthinking--generating large amounts of unnecessary tokens which don't improve accuracy on a question. We introduce approximate measures of problem-level difficulty and demonstrate that a clear relationship between problem difficulty and optimal token spend exists, and evaluate how well calibrated a variety of reasoning models are in terms of efficiently allocating the optimal token count. We find that in general, reasoning models are poorly calibrated, particularly on easy problems. To evaluate calibration on easy questions we introduce DUMB500, a dataset of extremely easy math, reasoning, code, and task problems, and jointly evaluate reasoning model on these simple examples and extremely difficult examples from existing frontier benchmarks on the same task domain. Finally, we introduce THOUGHTTERMINATOR, a training-free black box decoding technique that significantly improves reasoning model calibration.

Summary

AI-Generated Summary

PDF242April 22, 2025