La Diversidad Potencia la Inteligencia: Integración de la Expertise de Agentes de Ingeniería de Software
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents
August 13, 2024
Autores: Kexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong
cs.AI
Resumen
Los agentes de modelos de lenguaje grande (LLM) han demostrado un gran potencial en la resolución de problemas de ingeniería de software (SWE) del mundo real. El agente de SWE de código abierto más avanzado puede resolver más del 27% de problemas reales de GitHub en SWE-Bench Lite. Sin embargo, estos sofisticados marcos de agentes exhiben fortalezas variables, destacando en ciertas tareas mientras tienen un rendimiento inferior en otras. Para aprovechar al máximo la diversidad de estos agentes, proponemos DEI (Inteligencia Potenciada por la Diversidad), un marco que aprovecha su experiencia única. DEI funciona como un meta-módulo encima de los marcos de agentes de SWE existentes, gestionando colectivos de agentes para una resolución de problemas mejorada. Los resultados experimentales muestran que un comité de agentes guiado por DEI puede superar el rendimiento del mejor agente individual por un amplio margen. Por ejemplo, un grupo de agentes de SWE de código abierto, con una tasa máxima de resolución individual del 27.3% en SWE-Bench Lite, puede lograr una tasa de resolución del 34.3% con DEI, obteniendo una mejora del 25% y superando la mayoría de las soluciones de código cerrado. Nuestro grupo de mejor rendimiento destaca con una tasa de resolución del 55%, asegurando el puesto más alto en SWE-Bench Lite. Nuestros hallazgos contribuyen al creciente cuerpo de investigación sobre sistemas de IA colaborativos y su potencial para resolver desafíos complejos de ingeniería de software.
English
Large language model (LLM) agents have shown great potential in solving
real-world software engineering (SWE) problems. The most advanced open-source
SWE agent can resolve over 27% of real GitHub issues in SWE-Bench Lite.
However, these sophisticated agent frameworks exhibit varying strengths,
excelling in certain tasks while underperforming in others. To fully harness
the diversity of these agents, we propose DEI (Diversity Empowered
Intelligence), a framework that leverages their unique expertise. DEI functions
as a meta-module atop existing SWE agent frameworks, managing agent collectives
for enhanced problem-solving. Experimental results show that a DEI-guided
committee of agents is able to surpass the best individual agent's performance
by a large margin. For instance, a group of open-source SWE agents, with a
maximum individual resolve rate of 27.3% on SWE-Bench Lite, can achieve a 34.3%
resolve rate with DEI, making a 25% improvement and beating most closed-source
solutions. Our best-performing group excels with a 55% resolve rate, securing
the highest ranking on SWE-Bench Lite. Our findings contribute to the growing
body of research on collaborative AI systems and their potential to solve
complex software engineering challenges.Summary
AI-Generated Summary