ChatPaper.aiChatPaper

考えはあちこちに散らばっている:o1-Like LLMsの過小評価について

Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

January 30, 2025
著者: Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI

要旨

OpenAIのo1などの大規模言語モデル(LLMs)は、テスト時の計算量をスケーリングし、人間らしい深い思考を示すことで、複雑な推論タスクで注目すべき能力を示しています。しかし、私たちは「アンダーシンキング」という現象を特定しました。これは、o1のようなLLMsが、有望な解決策に到達するための道を十分に探索せず、頻繁に異なる推論の思考を切り替えることを指します。この行動は、推論の深さが不十分であり、特に難しい数学問題においてパフォーマンスが低下することにつながります。この問題を体系的に分析するために、私たちは3つの難解なテストセットと2つの代表的なオープンソースのo1のようなモデルで実験を行い、思考の頻繁な切り替えが不正確な回答と相関していることを明らかにしました。私たちは、不正確な回答のトークン効率を測定することでアンダーシンキングを定量化する新しい指標を導入します。アンダーシンキングに対処するために、思考の切り替えペナルティTIPを備えたデコーディング戦略を提案し、思考の早すぎる切り替えを抑制し、各推論経路のより深い探索を促します。実験結果は、モデルの微調整を必要とせずに、難解なデータセット全体で精度が向上することを示しています。私たちの研究成果は、o1のようなLLMsにおける推論の非効率性を理解するのに貢献し、問題解決能力を向上させる実用的な解決策を提供しています。
English
Large language models (LLMs) such as OpenAI's o1 have demonstrated remarkable abilities in complex reasoning tasks by scaling test-time compute and exhibiting human-like deep thinking. However, we identify a phenomenon we term underthinking, where o1-like LLMs frequently switch between different reasoning thoughts without sufficiently exploring promising paths to reach a correct solution. This behavior leads to inadequate depth of reasoning and decreased performance, particularly on challenging mathematical problems. To systematically analyze this issue, we conduct experiments on three challenging test sets and two representative open-source o1-like models, revealing that frequent thought switching correlates with incorrect responses. We introduce a novel metric to quantify underthinking by measuring token efficiency in incorrect answers. To address underthinking, we propose a decoding strategy with thought switching penalty TIP that discourages premature transitions between thoughts, encouraging deeper exploration of each reasoning path. Experimental results demonstrate that our approach improves accuracy across challenging datasets without requiring model fine-tuning. Our findings contribute to understanding reasoning inefficiencies in o1-like LLMs and offer a practical solution to enhance their problem-solving capabilities.

Summary

AI-Generated Summary

PDF6111January 31, 2025