Gedanken sind überall verstreut: Über das Unterdenken von o1-ähnlichen LLMs.
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
January 30, 2025
Autoren: Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) wie OpenAIs o1 haben bemerkenswerte Fähigkeiten bei komplexen Denkaufgaben gezeigt, indem sie die Rechenleistung zur Testzeit skalieren und menschenähnliches tiefes Denken zeigen. Allerdings identifizieren wir ein Phänomen, das wir als "Unterdenken" bezeichnen, bei dem o1-ähnliche LLMs häufig zwischen verschiedenen Denkansätzen wechseln, ohne vielversprechende Wege zur Erreichung einer korrekten Lösung ausreichend zu erkunden. Dieses Verhalten führt zu unzureichender Tiefe des Denkens und verringerte Leistung, insbesondere bei anspruchsvollen mathematischen Problemen. Um dieses Problem systematisch zu analysieren, führen wir Experimente an drei anspruchsvollen Testsets und zwei repräsentativen Open-Source o1-ähnlichen Modellen durch, die zeigen, dass häufiges Wechseln der Gedanken mit inkorrekten Antworten korreliert. Wir führen eine neue Metrik ein, um das Unterdenken zu quantifizieren, indem wir die Token-Effizienz bei falschen Antworten messen. Um dem Unterdenken entgegenzuwirken, schlagen wir eine Dekodierungsstrategie mit einem Gedankenwechsel-Strafmaß (TIP) vor, das vorzeitige Übergänge zwischen Denkansätzen entmutigt und eine tiefere Erkundung jedes Denkwegs fördert. Experimentelle Ergebnisse zeigen, dass unser Ansatz die Genauigkeit über anspruchsvolle Datensätze hinweg verbessert, ohne dass eine Feinabstimmung des Modells erforderlich ist. Unsere Erkenntnisse tragen dazu bei, die ineffiziente Denkweise bei o1-ähnlichen LLMs zu verstehen und bieten eine praktische Lösung zur Verbesserung ihrer Problemlösungsfähigkeiten.
English
Large language models (LLMs) such as OpenAI's o1 have demonstrated remarkable
abilities in complex reasoning tasks by scaling test-time compute and
exhibiting human-like deep thinking. However, we identify a phenomenon we term
underthinking, where o1-like LLMs frequently switch between different reasoning
thoughts without sufficiently exploring promising paths to reach a correct
solution. This behavior leads to inadequate depth of reasoning and decreased
performance, particularly on challenging mathematical problems. To
systematically analyze this issue, we conduct experiments on three challenging
test sets and two representative open-source o1-like models, revealing that
frequent thought switching correlates with incorrect responses. We introduce a
novel metric to quantify underthinking by measuring token efficiency in
incorrect answers. To address underthinking, we propose a decoding strategy
with thought switching penalty TIP that discourages premature transitions
between thoughts, encouraging deeper exploration of each reasoning path.
Experimental results demonstrate that our approach improves accuracy across
challenging datasets without requiring model fine-tuning. Our findings
contribute to understanding reasoning inefficiencies in o1-like LLMs and offer
a practical solution to enhance their problem-solving capabilities.Summary
AI-Generated Summary