La Diversità Potenzia l'Intelligenza: Integrazione delle Competenze degli Agenti di Ingegneria del Software
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents
August 13, 2024
Autori: Kexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un grande potenziale nella risoluzione di problemi reali di ingegneria del software (SWE). L'agente SWE open-source più avanzato è in grado di risolvere oltre il 27% dei problemi reali su GitHub in SWE-Bench Lite. Tuttavia, questi sofisticati framework di agenti presentano punti di forza variabili, eccellendo in alcuni compiti mentre risultano meno performanti in altri. Per sfruttare appieno la diversità di questi agenti, proponiamo DEI (Diversity Empowered Intelligence), un framework che sfrutta le loro competenze uniche. DEI funziona come un meta-modulo sopra i framework esistenti di agenti SWE, gestendo collettivi di agenti per migliorare la risoluzione dei problemi. I risultati sperimentali mostrano che un comitato di agenti guidato da DEI è in grado di superare di gran lunga le prestazioni del miglior agente individuale. Ad esempio, un gruppo di agenti SWE open-source, con un tasso di risoluzione individuale massimo del 27,3% su SWE-Bench Lite, può raggiungere un tasso di risoluzione del 34,3% con DEI, ottenendo un miglioramento del 25% e superando la maggior parte delle soluzioni closed-source. Il nostro gruppo con le migliori prestazioni eccelle con un tasso di risoluzione del 55%, ottenendo il punteggio più alto su SWE-Bench Lite. Le nostre scoperte contribuiscono al crescente corpus di ricerca sui sistemi di intelligenza artificiale collaborativi e sul loro potenziale nel risolvere complesse sfide di ingegneria del software.
English
Large language model (LLM) agents have shown great potential in solving
real-world software engineering (SWE) problems. The most advanced open-source
SWE agent can resolve over 27% of real GitHub issues in SWE-Bench Lite.
However, these sophisticated agent frameworks exhibit varying strengths,
excelling in certain tasks while underperforming in others. To fully harness
the diversity of these agents, we propose DEI (Diversity Empowered
Intelligence), a framework that leverages their unique expertise. DEI functions
as a meta-module atop existing SWE agent frameworks, managing agent collectives
for enhanced problem-solving. Experimental results show that a DEI-guided
committee of agents is able to surpass the best individual agent's performance
by a large margin. For instance, a group of open-source SWE agents, with a
maximum individual resolve rate of 27.3% on SWE-Bench Lite, can achieve a 34.3%
resolve rate with DEI, making a 25% improvement and beating most closed-source
solutions. Our best-performing group excels with a 55% resolve rate, securing
the highest ranking on SWE-Bench Lite. Our findings contribute to the growing
body of research on collaborative AI systems and their potential to solve
complex software engineering challenges.