HyperAgent: 拡張性を持つソフトウェアエンジニアリングエージェントによるコーディングタスクの解決
HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale
September 9, 2024
著者: Huy Nhat Phan, Phong X. Nguyen, Nghi D. Q. Bui
cs.AI
要旨
大規模言語モデル(LLMs)はソフトウェアエンジニアリング(SE)を革新し、さまざまなコーディングタスクで顕著な能力を示しています。最近の取り組みでは、LLMsに基づく自律ソフトウェアエージェントがエンドツーエンドの開発タスクに使用されていますが、これらのシステムは通常、特定のSEタスク向けに設計されています。私たちは、人間の開発者のワークフローを模倣することで、さまざまなプログラミング言語にわたるSEタスクの幅広いスペクトルに対処するために設計された新しい汎用マルチエージェントシステムであるHyperAgentを紹介します。Planner、Navigator、Code Editor、Executorの4つの専門エージェントで構成されるHyperAgentは、SEタスクの全ライフサイクルを初期構想から最終検証まで管理します。広範な評価を通じて、HyperAgentはさまざまなSEタスクで最先端のパフォーマンスを達成しています:SWE-Bench-Liteでは25.01%の成功率、GitHubの問題解決においてはSWE-Bench-Verifiedで31.40%を達成し、既存の手法を上回っています。さらに、HyperAgentはリポジトリレベルのコード生成(RepoExec)や欠陥の特定およびプログラム修復(Defects4J)において、専門システムをしのぐことがよくあり、SOTAのパフォーマンスを示しています。この研究は、さまざまなドメインや言語を横断する複雑な多段階SEタスクを処理できる多目的で自律的なエージェントへの重要な進歩を表しており、AI支援ソフトウェア開発プラクティスの変革をもたらす可能性があります。
English
Large Language Models (LLMs) have revolutionized software engineering (SE),
demonstrating remarkable capabilities in various coding tasks. While recent
efforts have produced autonomous software agents based on LLMs for end-to-end
development tasks, these systems are typically designed for specific SE tasks.
We introduce HyperAgent, a novel generalist multi-agent system designed to
address a wide spectrum of SE tasks across different programming languages by
mimicking human developers' workflows. Comprising four specialized agents -
Planner, Navigator, Code Editor, and Executor. HyperAgent manages the full
lifecycle of SE tasks, from initial conception to final verification. Through
extensive evaluations, HyperAgent achieves state-of-the-art performance across
diverse SE tasks: it attains a 25.01% success rate on SWE-Bench-Lite and 31.40%
on SWE-Bench-Verified for GitHub issue resolution, surpassing existing methods.
Furthermore, HyperAgent demonstrates SOTA performance in repository-level code
generation (RepoExec), and in fault localization and program repair
(Defects4J), often outperforming specialized systems. This work represents a
significant advancement towards versatile, autonomous agents capable of
handling complex, multi-step SE tasks across various domains and languages,
potentially transforming AI-assisted software development practices.Summary
AI-Generated Summary