El Peligro de Pensar Demasiado: Examinando el Dilema Razonamiento-Acción en Tareas con Agencia
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
February 12, 2025
Autores: Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
cs.AI
Resumen
Los Modelos de Razonamiento Amplio (LRMs, por sus siglas en inglés) representan un avance en las capacidades de resolución de problemas de la IA, pero su efectividad en entornos interactivos puede ser limitada. Este documento introduce y analiza el sobreanálisis en los LRMs, un fenómeno en el que los modelos prefieren cadenas de razonamiento interno prolongadas sobre la interacción ambiental. A través de experimentos en tareas de ingeniería de software utilizando SWE Bench Verified, observamos tres patrones recurrentes: Parálisis del Análisis, Acciones Rebeldes y Desvinculación Prematura. Proponemos un marco para estudiar estos comportamientos, que se correlaciona con las evaluaciones de expertos humanos, y analizamos 4018 trayectorias. Observamos que puntajes más altos de sobreanálisis se correlacionan con un rendimiento disminuido, con modelos de razonamiento mostrando tendencias más fuertes hacia el sobreanálisis en comparación con modelos no razonadores. Nuestro análisis revela que simples esfuerzos para mitigar el sobreanálisis en entornos agentes, como seleccionar la solución con el menor puntaje de sobreanálisis, pueden mejorar el rendimiento del modelo en casi un 30% mientras se reducen los costos computacionales en un 43%. Estos resultados sugieren que mitigar el sobreanálisis tiene fuertes implicaciones prácticas. Sugerimos que al aprovechar las capacidades nativas de llamada de funciones y el aprendizaje por refuerzo selectivo, las tendencias de sobreanálisis podrían ser mitigadas. También compartimos de forma abierta nuestro marco de evaluación y conjunto de datos para facilitar la investigación en esta dirección en https://github.com/AlexCuadron/Overthinking.
English
Large Reasoning Models (LRMs) represent a breakthrough in AI problem-solving
capabilities, but their effectiveness in interactive environments can be
limited. This paper introduces and analyzes overthinking in LRMs. A phenomenon
where models favor extended internal reasoning chains over environmental
interaction. Through experiments on software engineering tasks using SWE Bench
Verified, we observe three recurring patterns: Analysis Paralysis, Rogue
Actions, and Premature Disengagement. We propose a framework to study these
behaviors, which correlates with human expert assessments, and analyze 4018
trajectories. We observe that higher overthinking scores correlate with
decreased performance, with reasoning models exhibiting stronger tendencies
toward overthinking compared to non-reasoning models. Our analysis reveals that
simple efforts to mitigate overthinking in agentic environments, such as
selecting the solution with the lower overthinking score, can improve model
performance by almost 30% while reducing computational costs by 43%. These
results suggest that mitigating overthinking has strong practical implications.
We suggest that by leveraging native function-calling capabilities and
selective reinforcement learning overthinking tendencies could be mitigated. We
also open-source our evaluation framework and dataset to facilitate research in
this direction at https://github.com/AlexCuadron/Overthinking.Summary
AI-Generated Summary