Опасность чрезмерного анализа: Изучение дилеммы рассуждения и действия в агентных задачах

Аннотация

Большие модели рассуждений (LRM) представляют собой прорыв в возможностях решения проблем в области искусственного интеллекта, однако их эффективность в интерактивных средах может быть ограничена. В данной статье представлено и проанализировано явление чрезмерного анализа в LRM. Феномен, при котором модели отдают предпочтение продолжительным внутренним цепочкам рассуждений перед взаимодействием с окружающей средой. Проведя эксперименты на задачах программной инженерии с использованием SWE Bench Verified, мы выявили три повторяющихся паттерна: Анализ Паралича, Действия-мародеры и Преждевременное Отстранение. Мы предлагаем фреймворк для изучения этих поведенческих шаблонов, который коррелирует с оценками человеческих экспертов, и проанализировали 4018 траекторий. Мы обнаружили, что более высокие оценки чрезмерного анализа коррелируют с уменьшением производительности, причем модели рассуждений проявляют более сильные тенденции к чрезмерному анализу по сравнению с моделями без рассуждений. Наш анализ показывает, что простые усилия по смягчению чрезмерного анализа в агентных средах, такие как выбор решения с более низкой оценкой чрезмерного анализа, могут улучшить производительность модели почти на 30%, снизив при этом вычислительные затраты на 43%. Эти результаты свидетельствуют о том, что смягчение чрезмерного анализа имеет сильные практические последствия. Мы предлагаем, что путем использования встроенных возможностей вызова функций и селективного обучения с подкреплением можно смягчить тенденции к чрезмерному анализу. Мы также открываем наш фреймворк оценки и набор данных для свободного использования, чтобы содействовать исследованиям в этом направлении по ссылке https://github.com/AlexCuadron/Overthinking.

English

Large Reasoning Models (LRMs) represent a breakthrough in AI problem-solving capabilities, but their effectiveness in interactive environments can be limited. This paper introduces and analyzes overthinking in LRMs. A phenomenon where models favor extended internal reasoning chains over environmental interaction. Through experiments on software engineering tasks using SWE Bench Verified, we observe three recurring patterns: Analysis Paralysis, Rogue Actions, and Premature Disengagement. We propose a framework to study these behaviors, which correlates with human expert assessments, and analyze 4018 trajectories. We observe that higher overthinking scores correlate with decreased performance, with reasoning models exhibiting stronger tendencies toward overthinking compared to non-reasoning models. Our analysis reveals that simple efforts to mitigate overthinking in agentic environments, such as selecting the solution with the lower overthinking score, can improve model performance by almost 30% while reducing computational costs by 43%. These results suggest that mitigating overthinking has strong practical implications. We suggest that by leveraging native function-calling capabilities and selective reinforcement learning overthinking tendencies could be mitigated. We also open-source our evaluation framework and dataset to facilitate research in this direction at https://github.com/AlexCuadron/Overthinking.

Опасность чрезмерного анализа: Изучение дилеммы рассуждения и действия в агентных задачах

The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

Аннотация

Support