Diversiteit Versterkt Intelligentie: Integratie van Expertise van Software Engineering Agents
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents
August 13, 2024
Auteurs: Kexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong
cs.AI
Samenvatting
Grote taalmodellen (LLM) agents hebben groot potentieel getoond in het oplossen van real-world software engineering (SWE) problemen. De meest geavanceerde open-source SWE-agent kan meer dan 27% van de echte GitHub-issues in SWE-Bench Lite oplossen. Deze geavanceerde agentframeworks vertonen echter verschillende sterktes, waarbij ze uitblinken in bepaalde taken en minder goed presteren in andere. Om de diversiteit van deze agents volledig te benutten, stellen we DEI (Diversity Empowered Intelligence) voor, een framework dat hun unieke expertise benut. DEI fungeert als een meta-module bovenop bestaande SWE-agentframeworks en beheert agentcollectieven voor verbeterde probleemoplossing. Experimentele resultaten tonen aan dat een door DEI geleid comité van agents de prestaties van de beste individuele agent met een grote marge kan overtreffen. Een groep open-source SWE-agents, met een maximaal individueel oplossingspercentage van 27,3% op SWE-Bench Lite, kan bijvoorbeeld een oplossingspercentage van 34,3% bereiken met DEI, wat een verbetering van 25% betekent en de meeste closed-source oplossingen overtreft. Onze best presterende groep blinkt uit met een oplossingspercentage van 55%, waarmee de hoogste rang op SWE-Bench Lite wordt behaald. Onze bevindingen dragen bij aan het groeiende onderzoeksveld naar collaboratieve AI-systemen en hun potentieel om complexe software engineering uitdagingen op te lossen.
English
Large language model (LLM) agents have shown great potential in solving
real-world software engineering (SWE) problems. The most advanced open-source
SWE agent can resolve over 27% of real GitHub issues in SWE-Bench Lite.
However, these sophisticated agent frameworks exhibit varying strengths,
excelling in certain tasks while underperforming in others. To fully harness
the diversity of these agents, we propose DEI (Diversity Empowered
Intelligence), a framework that leverages their unique expertise. DEI functions
as a meta-module atop existing SWE agent frameworks, managing agent collectives
for enhanced problem-solving. Experimental results show that a DEI-guided
committee of agents is able to surpass the best individual agent's performance
by a large margin. For instance, a group of open-source SWE agents, with a
maximum individual resolve rate of 27.3% on SWE-Bench Lite, can achieve a 34.3%
resolve rate with DEI, making a 25% improvement and beating most closed-source
solutions. Our best-performing group excels with a 55% resolve rate, securing
the highest ranking on SWE-Bench Lite. Our findings contribute to the growing
body of research on collaborative AI systems and their potential to solve
complex software engineering challenges.