¿Por qué fallan los sistemas de LLM multiagente?
Why Do Multi-Agent LLM Systems Fail?
March 17, 2025
Autores: Mert Cemri, Melissa Z. Pan, Shuyi Yang, Lakshya A. Agrawal, Bhavya Chopra, Rishabh Tiwari, Kurt Keutzer, Aditya Parameswaran, Dan Klein, Kannan Ramchandran, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica
cs.AI
Resumen
A pesar del creciente entusiasmo por los Sistemas Multiagente (MAS, por sus siglas en inglés), donde múltiples agentes de LLM colaboran para realizar tareas, sus mejoras en el rendimiento en comparación con los marcos de un solo agente siguen siendo mínimas en los benchmarks populares. Esta brecha subraya la necesidad de analizar los desafíos que obstaculizan la efectividad de los MAS.
En este artículo, presentamos el primer estudio exhaustivo sobre los desafíos de los MAS. Analizamos cinco marcos populares de MAS en más de 150 tareas, involucrando a seis anotadores humanos expertos. Identificamos 14 modos de fallo únicos y proponemos una taxonomía integral aplicable a diversos marcos de MAS. Esta taxonomía surge de manera iterativa a partir de acuerdos entre tres anotadores expertos por estudio, alcanzando un puntaje de Kappa de Cohen de 0.88. Estos modos de fallo detallados se organizan en tres categorías: (i) fallos en la especificación y diseño del sistema, (ii) desalineación entre agentes, y (iii) verificación y finalización de tareas. Para apoyar una evaluación escalable, integramos MASFT con LLM-as-a-Judge. También exploramos si los fallos identificados podrían prevenirse fácilmente proponiendo dos intervenciones: una mejor especificación de los roles de los agentes y estrategias de orquestación mejoradas. Nuestros hallazgos revelan que los fallos identificados requieren soluciones más complejas, destacando una hoja de ruta clara para futuras investigaciones. Hemos puesto a disposición nuestro conjunto de datos y el anotador de LLM como código abierto.
English
Despite growing enthusiasm for Multi-Agent Systems (MAS), where multiple LLM
agents collaborate to accomplish tasks, their performance gains across popular
benchmarks remain minimal compared to single-agent frameworks. This gap
highlights the need to analyze the challenges hindering MAS effectiveness.
In this paper, we present the first comprehensive study of MAS challenges. We
analyze five popular MAS frameworks across over 150 tasks, involving six expert
human annotators. We identify 14 unique failure modes and propose a
comprehensive taxonomy applicable to various MAS frameworks. This taxonomy
emerges iteratively from agreements among three expert annotators per study,
achieving a Cohen's Kappa score of 0.88. These fine-grained failure modes are
organized into 3 categories, (i) specification and system design failures, (ii)
inter-agent misalignment, and (iii) task verification and termination. To
support scalable evaluation, we integrate MASFT with LLM-as-a-Judge. We also
explore if identified failures could be easily prevented by proposing two
interventions: improved specification of agent roles and enhanced orchestration
strategies. Our findings reveal that identified failures require more complex
solutions, highlighting a clear roadmap for future research. We open-source our
dataset and LLM annotator.Summary
AI-Generated Summary