Мысли разбросаны повсюду: о недостаточном анализе o1-подобных LLM.
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
January 30, 2025
Авторы: Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI
Аннотация
Большие языковые модели (LLM), такие как o1 от OpenAI, продемонстрировали выдающиеся способности в сложных задачах рассуждения за счет увеличения вычислительных ресурсов во время тестирования и проявления глубокого мышления, сходного с человеческим. Однако мы выделяем явление, которое мы называем недостаточным мышлением, когда LLM подобные o1 часто переключаются между различными мыслями рассуждения, не достаточно исследуя перспективные пути к правильному решению. Это поведение приводит к недостаточной глубине рассуждения и снижению производительности, особенно на сложных математических задачах. Для систематического анализа этой проблемы мы проводим эксперименты на трех сложных наборах тестов и двух представительных моделях, подобных o1, с открытым исходным кодом, выявляя, что частое переключение мыслей коррелирует с неправильными ответами. Мы представляем новую метрику для количественной оценки недостаточного мышления путем измерения эффективности токенов в неправильных ответах. Для решения проблемы недостаточного мышления мы предлагаем стратегию декодирования с штрафом за переключение мыслей (TIP), которая уменьшает преждевременные переходы между мыслями, поощряя более глубокое исследование каждого пути рассуждения. Экспериментальные результаты показывают, что наш подход повышает точность на сложных наборах данных, не требуя донастройки модели. Наши результаты способствуют пониманию неэффективности рассуждений в LLM, подобных o1, и предлагают практическое решение для улучшения их способностей к решению проблем.
English
Large language models (LLMs) such as OpenAI's o1 have demonstrated remarkable
abilities in complex reasoning tasks by scaling test-time compute and
exhibiting human-like deep thinking. However, we identify a phenomenon we term
underthinking, where o1-like LLMs frequently switch between different reasoning
thoughts without sufficiently exploring promising paths to reach a correct
solution. This behavior leads to inadequate depth of reasoning and decreased
performance, particularly on challenging mathematical problems. To
systematically analyze this issue, we conduct experiments on three challenging
test sets and two representative open-source o1-like models, revealing that
frequent thought switching correlates with incorrect responses. We introduce a
novel metric to quantify underthinking by measuring token efficiency in
incorrect answers. To address underthinking, we propose a decoding strategy
with thought switching penalty TIP that discourages premature transitions
between thoughts, encouraging deeper exploration of each reasoning path.
Experimental results demonstrate that our approach improves accuracy across
challenging datasets without requiring model fine-tuning. Our findings
contribute to understanding reasoning inefficiencies in o1-like LLMs and offer
a practical solution to enhance their problem-solving capabilities.Summary
AI-Generated Summary