HyperAgent: Generalistische Software-Engineering-Agenten zur Lösung von Codieraufgaben im großen Maßstab

papers.abstract

Große Sprachmodelle (LLMs) haben die Softwaretechnik (SE) revolutioniert und zeigen bemerkenswerte Fähigkeiten bei verschiedenen Kodieraufgaben. Während jüngste Bemühungen autonome Softwareagenten auf Basis von LLMs für End-to-End-Entwicklungsaufgaben hervorgebracht haben, sind diese Systeme typischerweise für spezifische SE-Aufgaben konzipiert. Wir stellen HyperAgent vor, ein neuartiges generalistisches Multi-Agenten-System, das entworfen wurde, um eine breite Palette von SE-Aufgaben in verschiedenen Programmiersprachen zu bewältigen, indem es die Arbeitsabläufe menschlicher Entwickler nachahmt. Bestehend aus vier spezialisierten Agenten - Planer, Navigator, Code-Editor und Ausführer - verwaltet HyperAgent den gesamten Lebenszyklus von SE-Aufgaben, von der ersten Konzeption bis zur abschließenden Verifizierung. Durch umfangreiche Bewertungen erzielt HyperAgent Spitzenleistungen bei verschiedenen SE-Aufgaben: Es erreicht eine Erfolgsquote von 25,01% bei SWE-Bench-Lite und 31,40% bei SWE-Bench-Verified für die Lösung von GitHub-Problemen und übertrifft dabei bestehende Methoden. Darüber hinaus zeigt HyperAgent Spitzenleistungen bei der Codegenerierung auf Repository-Ebene (RepoExec) sowie bei der Fehlerlokalisierung und Programmreparatur (Defects4J) und übertrifft oft spezialisierte Systeme. Diese Arbeit stellt einen bedeutenden Fortschritt hin zu vielseitigen, autonomen Agenten dar, die komplexe, mehrstufige SE-Aufgaben in verschiedenen Bereichen und Sprachen bewältigen können und damit potenziell die Praktiken der KI-unterstützten Softwareentwicklung transformieren.

English

Large Language Models (LLMs) have revolutionized software engineering (SE), demonstrating remarkable capabilities in various coding tasks. While recent efforts have produced autonomous software agents based on LLMs for end-to-end development tasks, these systems are typically designed for specific SE tasks. We introduce HyperAgent, a novel generalist multi-agent system designed to address a wide spectrum of SE tasks across different programming languages by mimicking human developers' workflows. Comprising four specialized agents - Planner, Navigator, Code Editor, and Executor. HyperAgent manages the full lifecycle of SE tasks, from initial conception to final verification. Through extensive evaluations, HyperAgent achieves state-of-the-art performance across diverse SE tasks: it attains a 25.01% success rate on SWE-Bench-Lite and 31.40% on SWE-Bench-Verified for GitHub issue resolution, surpassing existing methods. Furthermore, HyperAgent demonstrates SOTA performance in repository-level code generation (RepoExec), and in fault localization and program repair (Defects4J), often outperforming specialized systems. This work represents a significant advancement towards versatile, autonomous agents capable of handling complex, multi-step SE tasks across various domains and languages, potentially transforming AI-assisted software development practices.

HyperAgent: Generalistische Software-Engineering-Agenten zur Lösung von Codieraufgaben im großen Maßstab

HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale

papers.abstract

Support