ChatPaper.aiChatPaper

A Diversidade Potencializa a Inteligência: Integrando a Expertise de Agentes de Engenharia de Software

Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

August 13, 2024
Autores: Kexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong
cs.AI

Resumo

Os agentes de modelos de linguagem grandes (LLM) têm mostrado grande potencial na resolução de problemas de engenharia de software (SWE) do mundo real. O agente SWE de código aberto mais avançado pode resolver mais de 27% dos problemas reais do GitHub no SWE-Bench Lite. No entanto, esses sofisticados frameworks de agentes apresentam diferentes pontos fortes, destacando-se em certas tarefas enquanto têm desempenho inferior em outras. Para aproveitar plenamente a diversidade desses agentes, propomos o DEI (Diversidade Potencializada pela Inteligência), um framework que alavanca a experiência única deles. O DEI funciona como um meta-módulo sobre os frameworks de agentes SWE existentes, gerenciando coletivos de agentes para aprimoramento na resolução de problemas. Resultados experimentais mostram que um comitê de agentes guiado pelo DEI é capaz de superar significativamente o desempenho do melhor agente individual. Por exemplo, um grupo de agentes SWE de código aberto, com uma taxa máxima de resolução individual de 27,3% no SWE-Bench Lite, pode alcançar uma taxa de resolução de 34,3% com o DEI, representando uma melhoria de 25% e superando a maioria das soluções de código fechado. Nosso grupo com melhor desempenho se destaca com uma taxa de resolução de 55%, garantindo a classificação mais alta no SWE-Bench Lite. Nossas descobertas contribuem para o crescente corpo de pesquisas sobre sistemas de IA colaborativos e seu potencial para resolver desafios complexos de engenharia de software.
English
Large language model (LLM) agents have shown great potential in solving real-world software engineering (SWE) problems. The most advanced open-source SWE agent can resolve over 27% of real GitHub issues in SWE-Bench Lite. However, these sophisticated agent frameworks exhibit varying strengths, excelling in certain tasks while underperforming in others. To fully harness the diversity of these agents, we propose DEI (Diversity Empowered Intelligence), a framework that leverages their unique expertise. DEI functions as a meta-module atop existing SWE agent frameworks, managing agent collectives for enhanced problem-solving. Experimental results show that a DEI-guided committee of agents is able to surpass the best individual agent's performance by a large margin. For instance, a group of open-source SWE agents, with a maximum individual resolve rate of 27.3% on SWE-Bench Lite, can achieve a 34.3% resolve rate with DEI, making a 25% improvement and beating most closed-source solutions. Our best-performing group excels with a 55% resolve rate, securing the highest ranking on SWE-Bench Lite. Our findings contribute to the growing body of research on collaborative AI systems and their potential to solve complex software engineering challenges.

Summary

AI-Generated Summary

PDF438November 28, 2024