Gedachten zijn overal: Over het onderdenken van o1-achtige LLM's.
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
January 30, 2025
Auteurs: Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI
Samenvatting
Grote taalmodellen (LLM's) zoals OpenAI's o1 hebben opmerkelijke vaardigheden aangetoond in complexe redeneertaken door testtijdcomputatie te schalen en mensachtig diep denken te vertonen. We identificeren echter een fenomeen dat we 'onderdenken' noemen, waarbij o1-achtige LLM's vaak wisselen tussen verschillende redenerende gedachten zonder veelbelovende paden voldoende te verkennen om tot een juiste oplossing te komen. Dit gedrag leidt tot onvoldoende diepgang van redenering en verminderde prestaties, met name bij uitdagende wiskundige problemen. Om dit probleem systematisch te analyseren, voeren we experimenten uit op drie uitdagende testsets en twee representatieve open-source o1-achtige modellen, waarbij blijkt dat frequent schakelen tussen gedachten correleert met onjuiste antwoorden. We introduceren een nieuwe maatstaf om onderdenken te kwantificeren door de token-efficiëntie in incorrecte antwoorden te meten. Om onderdenken aan te pakken, stellen we een decoderingsstrategie voor met een 'thought switching penalty' (TIP) die vroegtijdige overgangen tussen gedachten ontmoedigt en dieper onderzoek van elk redeneerpad aanmoedigt. Experimentele resultaten tonen aan dat onze aanpak de nauwkeurigheid verbetert over uitdagende datasets zonder dat modelfinetuning nodig is. Onze bevindingen dragen bij aan het begrijpen van redeneerinefficiënties in o1-achtige LLM's en bieden een praktische oplossing om hun probleemoplossend vermogen te verbeteren.
English
Large language models (LLMs) such as OpenAI's o1 have demonstrated remarkable
abilities in complex reasoning tasks by scaling test-time compute and
exhibiting human-like deep thinking. However, we identify a phenomenon we term
underthinking, where o1-like LLMs frequently switch between different reasoning
thoughts without sufficiently exploring promising paths to reach a correct
solution. This behavior leads to inadequate depth of reasoning and decreased
performance, particularly on challenging mathematical problems. To
systematically analyze this issue, we conduct experiments on three challenging
test sets and two representative open-source o1-like models, revealing that
frequent thought switching correlates with incorrect responses. We introduce a
novel metric to quantify underthinking by measuring token efficiency in
incorrect answers. To address underthinking, we propose a decoding strategy
with thought switching penalty TIP that discourages premature transitions
between thoughts, encouraging deeper exploration of each reasoning path.
Experimental results demonstrate that our approach improves accuracy across
challenging datasets without requiring model fine-tuning. Our findings
contribute to understanding reasoning inefficiencies in o1-like LLMs and offer
a practical solution to enhance their problem-solving capabilities.Summary
AI-Generated Summary