HyperAgent : Agents de génie logiciel généralistes pour résoudre des tâches de codage à grande échelle

papers.abstract

Les grands modèles de langage (LLM) ont révolutionné le génie logiciel (SE), démontrant des capacités remarquables dans diverses tâches de codage. Alors que des efforts récents ont donné lieu à des agents logiciels autonomes basés sur les LLM pour des tâches de développement de bout en bout, ces systèmes sont généralement conçus pour des tâches SE spécifiques. Nous présentons HyperAgent, un nouveau système multi-agent généraliste conçu pour aborder un large spectre de tâches SE dans différentes langues de programmation en imitant les flux de travail des développeurs humains. Composé de quatre agents spécialisés - Planificateur, Navigateur, Éditeur de code et Exécuteur - HyperAgent gère le cycle de vie complet des tâches SE, de la conception initiale à la vérification finale. À travers des évaluations approfondies, HyperAgent atteint des performances de pointe dans diverses tâches SE : il obtient un taux de réussite de 25,01 % sur SWE-Bench-Lite et de 31,40 % sur SWE-Bench-Verified pour la résolution des problèmes GitHub, dépassant les méthodes existantes. De plus, HyperAgent démontre des performances de pointe dans la génération de code au niveau du référentiel (RepoExec), ainsi que dans la localisation des défauts et la réparation de programmes (Defects4J), surpassant souvent les systèmes spécialisés. Ce travail représente une avancée significative vers des agents autonomes polyvalents capables de gérer des tâches SE complexes et multi-étapes dans divers domaines et langues, transformant potentiellement les pratiques de développement logiciel assisté par l'IA.

English

Large Language Models (LLMs) have revolutionized software engineering (SE), demonstrating remarkable capabilities in various coding tasks. While recent efforts have produced autonomous software agents based on LLMs for end-to-end development tasks, these systems are typically designed for specific SE tasks. We introduce HyperAgent, a novel generalist multi-agent system designed to address a wide spectrum of SE tasks across different programming languages by mimicking human developers' workflows. Comprising four specialized agents - Planner, Navigator, Code Editor, and Executor. HyperAgent manages the full lifecycle of SE tasks, from initial conception to final verification. Through extensive evaluations, HyperAgent achieves state-of-the-art performance across diverse SE tasks: it attains a 25.01% success rate on SWE-Bench-Lite and 31.40% on SWE-Bench-Verified for GitHub issue resolution, surpassing existing methods. Furthermore, HyperAgent demonstrates SOTA performance in repository-level code generation (RepoExec), and in fault localization and program repair (Defects4J), often outperforming specialized systems. This work represents a significant advancement towards versatile, autonomous agents capable of handling complex, multi-step SE tasks across various domains and languages, potentially transforming AI-assisted software development practices.

HyperAgent : Agents de génie logiciel généralistes pour résoudre des tâches de codage à grande échelle

HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale

papers.abstract

Support