Agentless: Het ontrafelen van LLM-gebaseerde Software Engineering Agents
Agentless: Demystifying LLM-based Software Engineering Agents
July 1, 2024
Auteurs: Chunqiu Steven Xia, Yinlin Deng, Soren Dunn, Lingming Zhang
cs.AI
Samenvatting
Recente vooruitgang in grote taalmodellen (LLMs) heeft de automatisering van softwareontwikkelingstaken aanzienlijk bevorderd, waaronder codesynthese, programmaherstel en testgeneratie. Meer recentelijk hebben onderzoekers en praktijkmensen in de industrie verschillende autonome LLM-agents ontwikkeld om end-to-end softwareontwikkelingstaken uit te voeren. Deze agents zijn uitgerust met het vermogen om tools te gebruiken, commando's uit te voeren, feedback uit de omgeving te observeren en toekomstige acties te plannen. De complexiteit van deze agent-gebaseerde benaderingen, samen met de beperkte mogelijkheden van huidige LLMs, roept echter de volgende vraag op: Moeten we echt complexe autonome softwareagents inzetten? Om deze vraag te beantwoorden, hebben we Agentless ontwikkeld – een agentloze benadering om softwareontwikkelingsproblemen automatisch op te lossen. In vergelijking met de uitgebreide en complexe opzet van agent-gebaseerde benaderingen, hanteert Agentless een eenvoudig tweefasenproces van lokalisatie gevolgd door herstel, zonder dat het LLM toekomstige acties bepaalt of met complexe tools werkt. Onze resultaten op de populaire SWE-bench Lite-benchmark laten verrassend genoeg zien dat de eenvoudige Agentless zowel de hoogste prestaties (27,33%) als de laagste kosten (\$0,34) kan behalen in vergelijking met alle bestaande open-source softwareagents! Bovendien hebben we de problemen in SWE-bench Lite handmatig geclassificeerd en problemen gevonden met exacte grondwaarde-patches of onvoldoende/misleidende probleembeschrijvingen. Daarom hebben we SWE-bench Lite-S geconstrueerd door dergelijke problematische kwesties uit te sluiten om een strengere evaluatie en vergelijking uit te voeren. Ons werk benadrukt het huidige over het hoofd geziene potentieel van een eenvoudige, interpreteerbare techniek in autonome softwareontwikkeling. We hopen dat Agentless de basislijn, het startpunt en de horizon voor autonome softwareagents zal helpen herdefiniëren en toekomstig werk in deze cruciale richting zal inspireren.
English
Recent advancements in large language models (LLMs) have significantly
advanced the automation of software development tasks, including code
synthesis, program repair, and test generation. More recently, researchers and
industry practitioners have developed various autonomous LLM agents to perform
end-to-end software development tasks. These agents are equipped with the
ability to use tools, run commands, observe feedback from the environment, and
plan for future actions. However, the complexity of these agent-based
approaches, together with the limited abilities of current LLMs, raises the
following question: Do we really have to employ complex autonomous software
agents? To attempt to answer this question, we build Agentless -- an agentless
approach to automatically solve software development problems. Compared to the
verbose and complex setup of agent-based approaches, Agentless employs a
simplistic two-phase process of localization followed by repair, without
letting the LLM decide future actions or operate with complex tools. Our
results on the popular SWE-bench Lite benchmark show that surprisingly the
simplistic Agentless is able to achieve both the highest performance (27.33%)
and lowest cost (\$0.34) compared with all existing open-source software
agents! Furthermore, we manually classified the problems in SWE-bench Lite and
found problems with exact ground truth patch or insufficient/misleading issue
descriptions. As such, we construct SWE-bench Lite-S by excluding such
problematic issues to perform more rigorous evaluation and comparison. Our work
highlights the current overlooked potential of a simple, interpretable
technique in autonomous software development. We hope Agentless will help reset
the baseline, starting point, and horizon for autonomous software agents, and
inspire future work along this crucial direction.