Разнообразие усиливает интеллект: Интеграция экспертизы агентов программной инженерии
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents
August 13, 2024
Авторы: Kexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong
cs.AI
Аннотация
Агенты крупных языковых моделей (LLM) показали большой потенциал в решении
проблем реальной инженерии программного обеспечения (SWE). Самый передовой
открытый агент SWE может решить более 27% реальных проблем GitHub в SWE-Bench Lite.
Однако эти сложные фреймворки агентов обладают различными сильными сторонами,
преуспевая в определенных задачах, но проявляя слабую производительность в других. Для полного использования
разнообразия этих агентов мы предлагаем DEI (Diversity Empowered
Intelligence), фреймворк, который использует их уникальную экспертизу. DEI функционирует
как мета-модуль над существующими фреймворками агентов SWE, управляя коллективами агентов
для улучшения решения проблем. Экспериментальные результаты показывают, что комитет агентов, управляемый DEI,
способен превзойти производительность лучшего индивидуального агента на значительное расстояние.
Например, группа открытых агентов SWE, с максимальной индивидуальной скоростью решения 27,3% в SWE-Bench Lite,
может достичь скорости решения 34,3% с DEI, что означает улучшение на 25% и превосходство большинства закрытых
решений. Наша наиболее успешная группа отличается скоростью решения 55%,
занимая самое высокое место в SWE-Bench Lite. Наши результаты вносят вклад в растущее
исследование коллективных AI систем и их потенциал в решении
сложных задач инженерии программного обеспечения.
English
Large language model (LLM) agents have shown great potential in solving
real-world software engineering (SWE) problems. The most advanced open-source
SWE agent can resolve over 27% of real GitHub issues in SWE-Bench Lite.
However, these sophisticated agent frameworks exhibit varying strengths,
excelling in certain tasks while underperforming in others. To fully harness
the diversity of these agents, we propose DEI (Diversity Empowered
Intelligence), a framework that leverages their unique expertise. DEI functions
as a meta-module atop existing SWE agent frameworks, managing agent collectives
for enhanced problem-solving. Experimental results show that a DEI-guided
committee of agents is able to surpass the best individual agent's performance
by a large margin. For instance, a group of open-source SWE agents, with a
maximum individual resolve rate of 27.3% on SWE-Bench Lite, can achieve a 34.3%
resolve rate with DEI, making a 25% improvement and beating most closed-source
solutions. Our best-performing group excels with a 55% resolve rate, securing
the highest ranking on SWE-Bench Lite. Our findings contribute to the growing
body of research on collaborative AI systems and their potential to solve
complex software engineering challenges.Summary
AI-Generated Summary