FeatureBench: Evaluación Comparativa de la Programación Agéntica para el Desarrollo de Funcionalidades Complejas

Resumen

Los agentes impulsados por modelos de lenguaje extenso (LLM) son cada vez más adoptados en la industria del software, contribuyendo código como colaboradores o incluso como desarrolladores autónomos. A medida que su presencia crece, resulta importante evaluar los límites actuales de sus capacidades de codificación. Sin embargo, los benchmarks existentes para la codificación agéntica cubren un alcance de tareas limitado, por ejemplo, la corrección de errores dentro de una única solicitud de extracción (PR), y a menudo dependen de evaluaciones no ejecutables o carecen de un enfoque automatizado para actualizar continuamente la cobertura de la evaluación. Para abordar estos problemas, proponemos FeatureBench, un benchmark diseñado para evaluar el rendimiento de la codificación agéntica en el desarrollo de software orientado a características de principio a fin. FeatureBench incorpora un protocolo de evaluación basado en ejecución y un método escalable basado en pruebas que deriva tareas automáticamente desde repositorios de código con un esfuerzo humano mínimo. Al rastrear desde las pruebas unitarias a lo largo de un gráfico de dependencias, nuestro enfoque puede identificar tareas de codificación a nivel de características que abarcan múltiples commits y PRs dispersos a lo largo de la línea de tiempo de desarrollo, asegurando al mismo tiempo el funcionamiento correcto de otras características después de la separación. Utilizando este marco, hemos seleccionado 200 tareas de evaluación desafiantes y 3825 entornos ejecutables a partir de 24 repositorios de código abierto en la primera versión de nuestro benchmark. La evaluación empírica revela que el modelo agéntico más avanzado, como Claude 4.5 Opus, que alcanza una tasa de resolución del 74.4% en SWE-bench, solo tiene éxito en el 11.0% de las tareas, abriendo nuevas oportunidades para el avance de la codificación agéntica. Además, beneficiándose de nuestro kit de herramientas de recolección automática de tareas, FeatureBench puede escalarse y actualizarse fácilmente con el tiempo para mitigar la filtración de datos. La verificabilidad inherente de los entornos construidos también hace que nuestro método sea potencialmente valioso para el entrenamiento de agentes.

English

Agents powered by large language models (LLMs) are increasingly adopted in the software industry, contributing code as collaborators or even autonomous developers. As their presence grows, it becomes important to assess the current boundaries of their coding abilities. Existing agentic coding benchmarks, however, cover a limited task scope, e.g., bug fixing within a single pull request (PR), and often rely on non-executable evaluations or lack an automated approach for continually updating the evaluation coverage. To address such issues, we propose FeatureBench, a benchmark designed to evaluate agentic coding performance in end-to-end, feature-oriented software development. FeatureBench incorporates an execution-based evaluation protocol and a scalable test-driven method that automatically derives tasks from code repositories with minimal human effort. By tracing from unit tests along a dependency graph, our approach can identify feature-level coding tasks spanning multiple commits and PRs scattered across the development timeline, while ensuring the proper functioning of other features after the separation. Using this framework, we curated 200 challenging evaluation tasks and 3825 executable environments from 24 open-source repositories in the first version of our benchmark. Empirical evaluation reveals that the state-of-the-art agentic model, such as Claude 4.5 Opus, which achieves a 74.4% resolved rate on SWE-bench, succeeds on only 11.0% of tasks, opening new opportunities for advancing agentic coding. Moreover, benefiting from our automated task collection toolkit, FeatureBench can be easily scaled and updated over time to mitigate data leakage. The inherent verifiability of constructed environments also makes our method potentially valuable for agent training.