다양성은 지능을 강화합니다: 소프트웨어 엔지니어링 에이전트의 전문 지식 통합
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents
August 13, 2024
저자: Kexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong
cs.AI
초록
대형 언어 모델 (LLM) 에이전트들은 실제 소프트웨어 엔지니어링 (SWE) 문제를 해결하는 데 큰 잠재력을 보여주고 있습니다. 가장 고급 오픈 소스 SWE 에이전트는 SWE-Bench Lite에서 실제 GitHub 문제의 27% 이상을 해결할 수 있습니다. 그러나 이러한 정교한 에이전트 프레임워크들은 다양한 강점을 보이며, 특정 작업에서 뛰어나지만 다른 작업에서는 성능이 부족할 수 있습니다. 이러한 에이전트들의 다양성을 완전히 활용하기 위해, 우리는 DEI (Diversity Empowered Intelligence)를 제안합니다. 이는 그들의 독특한 전문 지식을 활용하는 프레임워크로, 기존 SWE 에이전트 프레임워크 위에 메타 모듈로 작동하여 문제 해결 능력을 향상시키는데 사용됩니다. 실험 결과는 DEI로 이끌어진 에이전트 위원회가 가장 우수한 개별 에이전트의 성능을 크게 능가할 수 있다는 것을 보여줍니다. 예를 들어, 최대 개별 해결율이 SWE-Bench Lite에서 27.3%인 오픈 소스 SWE 에이전트 그룹은 DEI와 함께 34.3%의 해결율을 달성하여 25%의 향상을 이루며 대부분의 폐쇄 소스 솔루션을 능가합니다. 우리의 최고 성적을 거둔 그룹은 55%의 해결율로 뛰어나며 SWE-Bench Lite에서 최고 순위를 차지합니다. 우리의 연구 결과는 협력적 AI 시스템 및 복잡한 소프트웨어 엔지니어링 과제를 해결할 수 있는 잠재력에 대한 연구 분야의 성장에 기여합니다.
English
Large language model (LLM) agents have shown great potential in solving
real-world software engineering (SWE) problems. The most advanced open-source
SWE agent can resolve over 27% of real GitHub issues in SWE-Bench Lite.
However, these sophisticated agent frameworks exhibit varying strengths,
excelling in certain tasks while underperforming in others. To fully harness
the diversity of these agents, we propose DEI (Diversity Empowered
Intelligence), a framework that leverages their unique expertise. DEI functions
as a meta-module atop existing SWE agent frameworks, managing agent collectives
for enhanced problem-solving. Experimental results show that a DEI-guided
committee of agents is able to surpass the best individual agent's performance
by a large margin. For instance, a group of open-source SWE agents, with a
maximum individual resolve rate of 27.3% on SWE-Bench Lite, can achieve a 34.3%
resolve rate with DEI, making a 25% improvement and beating most closed-source
solutions. Our best-performing group excels with a 55% resolve rate, securing
the highest ranking on SWE-Bench Lite. Our findings contribute to the growing
body of research on collaborative AI systems and their potential to solve
complex software engineering challenges.Summary
AI-Generated Summary