Безагентные системы: Расшифровка агентов программной инженерии на основе LLM
Agentless: Demystifying LLM-based Software Engineering Agents
July 1, 2024
Авторы: Chunqiu Steven Xia, Yinlin Deng, Soren Dunn, Lingming Zhang
cs.AI
Аннотация
Недавние достижения в области крупных языковых моделей (LLM) значительно продвинули автоматизацию задач разработки программного обеспечения, включая синтез кода, восстановление программ и генерацию тестов. Более недавно исследователи и практикующие специалисты из индустрии разработали различных автономных агентов LLM для выполнения задач разработки программного обеспечения от начала до конца. Эти агенты обладают способностью использовать инструменты, выполнять команды, наблюдать за обратной связью из окружающей среды и планировать будущие действия. Однако сложность подходов на основе агентов, вместе с ограниченными возможностями текущих LLM, порождает следующий вопрос: Не обязательно ли нам использовать сложных автономных программных агентов? Для попытки ответа на этот вопрос мы создаем Agentless - подход без агентов для автоматического решения задач разработки программного обеспечения. По сравнению с многословной и сложной настройкой подходов на основе агентов, Agentless использует упрощенный двухфазный процесс локализации, за которым следует восстановление, не позволяя LLM принимать решения о будущих действиях или работать с сложными инструментами. Наши результаты на популярном бенчмарке SWE-bench Lite показывают, что удивительно простой Agentless способен достичь как лучшей производительности (27,33%), так и самой низкой стоимости (\$0,34) по сравнению со всеми существующими открытыми программными агентами! Более того, мы вручную классифицировали проблемы в SWE-bench Lite и обнаружили проблемы с точным патчем и недостаточными/вводящими в заблуждение описаниями проблем. Таким образом, мы создаем SWE-bench Lite-S, исключая такие проблемные вопросы, чтобы провести более строгую оценку и сравнение. Наша работа подчеркивает текущий недооцененный потенциал простой, интерпретируемой техники в автономной разработке программного обеспечения. Мы надеемся, что Agentless поможет переустановить базовую линию, отправную точку и горизонт для автономных программных агентов и вдохновит на будущие работы в этом важном направлении.
English
Recent advancements in large language models (LLMs) have significantly
advanced the automation of software development tasks, including code
synthesis, program repair, and test generation. More recently, researchers and
industry practitioners have developed various autonomous LLM agents to perform
end-to-end software development tasks. These agents are equipped with the
ability to use tools, run commands, observe feedback from the environment, and
plan for future actions. However, the complexity of these agent-based
approaches, together with the limited abilities of current LLMs, raises the
following question: Do we really have to employ complex autonomous software
agents? To attempt to answer this question, we build Agentless -- an agentless
approach to automatically solve software development problems. Compared to the
verbose and complex setup of agent-based approaches, Agentless employs a
simplistic two-phase process of localization followed by repair, without
letting the LLM decide future actions or operate with complex tools. Our
results on the popular SWE-bench Lite benchmark show that surprisingly the
simplistic Agentless is able to achieve both the highest performance (27.33%)
and lowest cost (\$0.34) compared with all existing open-source software
agents! Furthermore, we manually classified the problems in SWE-bench Lite and
found problems with exact ground truth patch or insufficient/misleading issue
descriptions. As such, we construct SWE-bench Lite-S by excluding such
problematic issues to perform more rigorous evaluation and comparison. Our work
highlights the current overlooked potential of a simple, interpretable
technique in autonomous software development. We hope Agentless will help reset
the baseline, starting point, and horizon for autonomous software agents, and
inspire future work along this crucial direction.Summary
AI-Generated Summary