Опасность чрезмерного анализа: Изучение дилеммы рассуждения и действия в агентных задачах
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
February 12, 2025
Авторы: Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
cs.AI
Аннотация
Большие модели рассуждений (LRM) представляют собой прорыв в возможностях решения проблем в области искусственного интеллекта, однако их эффективность в интерактивных средах может быть ограничена. В данной статье представлено и проанализировано явление чрезмерного анализа в LRM. Феномен, при котором модели отдают предпочтение продолжительным внутренним цепочкам рассуждений перед взаимодействием с окружающей средой. Проведя эксперименты на задачах программной инженерии с использованием SWE Bench Verified, мы выявили три повторяющихся паттерна: Анализ Паралича, Действия-мародеры и Преждевременное Отстранение. Мы предлагаем фреймворк для изучения этих поведенческих шаблонов, который коррелирует с оценками человеческих экспертов, и проанализировали 4018 траекторий. Мы обнаружили, что более высокие оценки чрезмерного анализа коррелируют с уменьшением производительности, причем модели рассуждений проявляют более сильные тенденции к чрезмерному анализу по сравнению с моделями без рассуждений. Наш анализ показывает, что простые усилия по смягчению чрезмерного анализа в агентных средах, такие как выбор решения с более низкой оценкой чрезмерного анализа, могут улучшить производительность модели почти на 30%, снизив при этом вычислительные затраты на 43%. Эти результаты свидетельствуют о том, что смягчение чрезмерного анализа имеет сильные практические последствия. Мы предлагаем, что путем использования встроенных возможностей вызова функций и селективного обучения с подкреплением можно смягчить тенденции к чрезмерному анализу. Мы также открываем наш фреймворк оценки и набор данных для свободного использования, чтобы содействовать исследованиям в этом направлении по ссылке https://github.com/AlexCuadron/Overthinking.
English
Large Reasoning Models (LRMs) represent a breakthrough in AI problem-solving
capabilities, but their effectiveness in interactive environments can be
limited. This paper introduces and analyzes overthinking in LRMs. A phenomenon
where models favor extended internal reasoning chains over environmental
interaction. Through experiments on software engineering tasks using SWE Bench
Verified, we observe three recurring patterns: Analysis Paralysis, Rogue
Actions, and Premature Disengagement. We propose a framework to study these
behaviors, which correlates with human expert assessments, and analyze 4018
trajectories. We observe that higher overthinking scores correlate with
decreased performance, with reasoning models exhibiting stronger tendencies
toward overthinking compared to non-reasoning models. Our analysis reveals that
simple efforts to mitigate overthinking in agentic environments, such as
selecting the solution with the lower overthinking score, can improve model
performance by almost 30% while reducing computational costs by 43%. These
results suggest that mitigating overthinking has strong practical implications.
We suggest that by leveraging native function-calling capabilities and
selective reinforcement learning overthinking tendencies could be mitigated. We
also open-source our evaluation framework and dataset to facilitate research in
this direction at https://github.com/AlexCuadron/Overthinking.Summary
AI-Generated Summary