HyperAgent: Algemene Software Engineering Agenten om Programmeertaken op Schaal op te Lossen

Samenvatting

Grote Taalmodellen (LLM's) hebben de software-engineering (SE) gerevolutioneerd, waarbij opmerkelijke capaciteiten zijn aangetoond in verschillende programmeertaken. Hoewel recente inspanningen autonome software-agenten hebben voortgebracht op basis van LLM's voor end-to-end ontwikkelingstaken, zijn deze systemen doorgaans ontworpen voor specifieke SE-taken. We introduceren HyperAgent, een nieuw generalistisch multi-agent systeem dat is ontworpen om een breed spectrum van SE-taken over verschillende programmeertalen aan te pakken door het nabootsen van de workflows van menselijke ontwikkelaars. Bestaande uit vier gespecialiseerde agenten - Planner, Navigator, Code Editor en Executor. HyperAgent beheert de volledige levenscyclus van SE-taken, van het initiële concept tot de uiteindelijke verificatie. Via uitgebreide evaluaties behaalt HyperAgent state-of-the-art prestaties over diverse SE-taken: het behaalt een succespercentage van 25,01% op SWE-Bench-Lite en 31,40% op SWE-Bench-Verified voor het oplossen van GitHub-issues, waarbij bestaande methoden worden overtroffen. Bovendien toont HyperAgent SOTA-prestaties in het genereren van code op repository-niveau (RepoExec), en in foutlokalisatie en programma-herstel (Defects4J), waarbij vaak gespecialiseerde systemen worden overtroffen. Dit werk vertegenwoordigt een significante vooruitgang naar veelzijdige, autonome agenten die in staat zijn complexe, meerstaps SE-taken over verschillende domeinen en talen aan te pakken, en mogelijk de praktijken van door AI ondersteunde softwareontwikkeling transformeren.

English

Large Language Models (LLMs) have revolutionized software engineering (SE), demonstrating remarkable capabilities in various coding tasks. While recent efforts have produced autonomous software agents based on LLMs for end-to-end development tasks, these systems are typically designed for specific SE tasks. We introduce HyperAgent, a novel generalist multi-agent system designed to address a wide spectrum of SE tasks across different programming languages by mimicking human developers' workflows. Comprising four specialized agents - Planner, Navigator, Code Editor, and Executor. HyperAgent manages the full lifecycle of SE tasks, from initial conception to final verification. Through extensive evaluations, HyperAgent achieves state-of-the-art performance across diverse SE tasks: it attains a 25.01% success rate on SWE-Bench-Lite and 31.40% on SWE-Bench-Verified for GitHub issue resolution, surpassing existing methods. Furthermore, HyperAgent demonstrates SOTA performance in repository-level code generation (RepoExec), and in fault localization and program repair (Defects4J), often outperforming specialized systems. This work represents a significant advancement towards versatile, autonomous agents capable of handling complex, multi-step SE tasks across various domains and languages, potentially transforming AI-assisted software development practices.

HyperAgent: Algemene Software Engineering Agenten om Programmeertaken op Schaal op te Lossen

HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale

Samenvatting

Summary

Support

Support