FeatureBench: Benchmark delle Capacità Agenti nello Sviluppo di Funzionalità Complesse
FeatureBench: Benchmarking Agentic Coding for Complex Feature Development
February 11, 2026
Autori: Qixing Zhou, Jiacheng Zhang, Haiyang Wang, Rui Hao, Jiahe Wang, Minghao Han, Yuxue Yang, Shuzhe Wu, Feiyang Pan, Lue Fan, Dandan Tu, Zhaoxiang Zhang
cs.AI
Abstract
Gli agenti basati su grandi modelli linguistici (LLM) stanno guadagnando sempre più adozione nell'industria del software, contribuendo al codice come collaboratori o persino come sviluppatori autonomi. Con la loro crescente presenza, diventa importante valutare i limiti attuali delle loro capacità di programmazione. Tuttavia, gli attuali benchmark di codifica agentesica coprono un ambito di compiti limitato, ad esempio, la correzione di bug all'interno di una singola pull request (PR), e spesso si basano su valutazioni non eseguibili o mancano di un approccio automatizzato per aggiornare continuamente la copertura valutativa. Per affrontare tali problemi, proponiamo FeatureBench, un benchmark progettato per valutare le prestazioni di codifica agentesica nello sviluppo software end-to-end e orientato alle funzionalità. FeatureBench incorpora un protocollo di valutazione basato sull'esecuzione e un metodo scalabile guidato dai test che deriva automaticamente i compiti dai repository di codice con uno sforzo umano minimo. Tracciando dai test unitari lungo un grafo delle dipendenze, il nostro approccio può identificare compiti di codifica a livello di funzionalità che si estendono su più commit e PR distribuiti lungo la timeline di sviluppo, garantendo al contempo il corretto funzionamento delle altre funzionalità dopo la separazione. Utilizzando questo framework, abbiamo curato 200 compiti di valutazione impegnativi e 3825 ambienti eseguibili da 24 repository open-source nella prima versione del nostro benchmark. La valutazione empirica rivela che il modello agentesico all'avanguardia, come Claude 4.5 Opus, che raggiunge un tasso di risoluzione del 74.4% su SWE-bench, riesce solo sull'11.0% dei compiti, aprendo nuove opportunità per far progredire la codifica agentesica. Inoltre, beneficiando del nostro toolkit automatizzato di raccolta compiti, FeatureBench può essere facilmente scalato e aggiornato nel tempo per mitigare la fuga di dati. La verificabilità intrinseca degli ambienti costruiti rende anche il nostro metodo potenzialmente prezioso per l'addestramento degli agenti.
English
Agents powered by large language models (LLMs) are increasingly adopted in the software industry, contributing code as collaborators or even autonomous developers. As their presence grows, it becomes important to assess the current boundaries of their coding abilities. Existing agentic coding benchmarks, however, cover a limited task scope, e.g., bug fixing within a single pull request (PR), and often rely on non-executable evaluations or lack an automated approach for continually updating the evaluation coverage. To address such issues, we propose FeatureBench, a benchmark designed to evaluate agentic coding performance in end-to-end, feature-oriented software development. FeatureBench incorporates an execution-based evaluation protocol and a scalable test-driven method that automatically derives tasks from code repositories with minimal human effort. By tracing from unit tests along a dependency graph, our approach can identify feature-level coding tasks spanning multiple commits and PRs scattered across the development timeline, while ensuring the proper functioning of other features after the separation. Using this framework, we curated 200 challenging evaluation tasks and 3825 executable environments from 24 open-source repositories in the first version of our benchmark. Empirical evaluation reveals that the state-of-the-art agentic model, such as Claude 4.5 Opus, which achieves a 74.4% resolved rate on SWE-bench, succeeds on only 11.0% of tasks, opening new opportunities for advancing agentic coding. Moreover, benefiting from our automated task collection toolkit, FeatureBench can be easily scaled and updated over time to mitigate data leakage. The inherent verifiability of constructed environments also makes our method potentially valuable for agent training.