FeatureBench : Évaluation comparative du codage agentique pour le développement de fonctionnalités complexes

papers.abstract

Les agents pilotés par des modèles de langage de grande taille (LLM) sont de plus en plus adoptés dans l'industrie du logiciel, contribuant au code en tant que collaborateurs ou même en tant que développeurs autonomes. Leur présence grandissante rend nécessaire l'évaluation des limites actuelles de leurs capacités en matière de programmation. Cependant, les benchmarks existants pour le codage agentique couvrent un champ de tâches limité, par exemple, la correction de bogues dans une seule demande de tirage (PR), et reposent souvent sur des évaluations non exécutables ou manquent d'une approche automatisée pour mettre à jour continuellement la couverture de l'évaluation. Pour résoudre ces problèmes, nous proposons FeatureBench, un benchmark conçu pour évaluer les performances de codage agentique dans le développement de logiciels orienté fonctionnalité, de bout en bout. FeatureBench intègre un protocole d'évaluation basé sur l'exécution et une méthode pilotée par les tests, évolutive, qui dérive automatiquement les tâches à partir de dépôts de code avec un effort humain minimal. En remontant des tests unitaires le long d'un graphe de dépendances, notre approche peut identifier des tâches de codage au niveau fonctionnalité, couvrant de multiples commits et PR dispersés sur la chronologie de développement, tout en garantissant le bon fonctionnement des autres fonctionnalités après la séparation. En utilisant ce cadre, nous avons constitué 200 tâches d'évaluation difficiles et 3825 environnements exécutables à partir de 24 dépôts open-source dans la première version de notre benchmark. L'évaluation empirique révèle que le modèle agentique de pointe, tel que Claude 4.5 Opus, qui atteint un taux de résolution de 74,4 % sur SWE-bench, ne réussit que 11,0 % des tâches, ouvrant de nouvelles opportunités pour faire progresser le codage agentique. De plus, grâce à notre boîte à outils automatisée de collecte de tâches, FeatureBench peut être facilement mis à l'échelle et actualisé au fil du temps pour atténuer les fuites de données. La vérifiabilité inhérente des environnements construits rend également notre méthode potentiellement précieuse pour l'entraînement des agents.

English

Agents powered by large language models (LLMs) are increasingly adopted in the software industry, contributing code as collaborators or even autonomous developers. As their presence grows, it becomes important to assess the current boundaries of their coding abilities. Existing agentic coding benchmarks, however, cover a limited task scope, e.g., bug fixing within a single pull request (PR), and often rely on non-executable evaluations or lack an automated approach for continually updating the evaluation coverage. To address such issues, we propose FeatureBench, a benchmark designed to evaluate agentic coding performance in end-to-end, feature-oriented software development. FeatureBench incorporates an execution-based evaluation protocol and a scalable test-driven method that automatically derives tasks from code repositories with minimal human effort. By tracing from unit tests along a dependency graph, our approach can identify feature-level coding tasks spanning multiple commits and PRs scattered across the development timeline, while ensuring the proper functioning of other features after the separation. Using this framework, we curated 200 challenging evaluation tasks and 3825 executable environments from 24 open-source repositories in the first version of our benchmark. Empirical evaluation reveals that the state-of-the-art agentic model, such as Claude 4.5 Opus, which achieves a 74.4% resolved rate on SWE-bench, succeeds on only 11.0% of tasks, opening new opportunities for advancing agentic coding. Moreover, benefiting from our automated task collection toolkit, FeatureBench can be easily scaled and updated over time to mitigate data leakage. The inherent verifiability of constructed environments also makes our method potentially valuable for agent training.

FeatureBench : Évaluation comparative du codage agentique pour le développement de fonctionnalités complexes

FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

papers.abstract

Support