SWE-CI : Évaluation des capacités des agents à maintenir des bases de code via l'intégration continue

Résumé

Les agents pilotés par des modèles de langage de grande taille (LLM) ont démontré de solides capacités dans l'automatisation de tâches de génie logiciel telles que la correction statique de bogues, comme en témoignent des benchmarks comme SWE-bench. Cependant, dans le monde réel, le développement de logiciels matures repose généralement sur des changements de besoins complexes et des itérations de fonctionnalités à long terme – un processus que les paradigmes de correction statique et ponctuelle ne parviennent pas à capturer. Pour combler cette lacune, nous proposons SWE-CI, le premier benchmark au niveau du référentiel construit sur la boucle d’intégration continue, visant à faire évoluer le paradigme d'évaluation pour la génération de code, passant d'une exactitude fonctionnelle statique et à court terme vers une maintenabilité dynamique et à long terme. Le benchmark comprend 100 tâches, chacune correspondant en moyenne à un historique d'évolution couvrant 233 jours et 71 commits consécutifs dans un référentiel de code réel. SWE-CI exige que les agents résolvent systématiquement ces tâches à travers des dizaines de cycles d'analyse et d'itérations de codage. SWE-CI offre des perspectives précises sur la capacité des agents à maintenir la qualité du code tout au long d'une évolution à long terme.

English

Large language model (LLM)-powered agents have demonstrated strong capabilities in automating software engineering tasks such as static bug fixing, as evidenced by benchmarks like SWE-bench. However, in the real world, the development of mature software is typically predicated on complex requirement changes and long-term feature iterations -- a process that static, one-shot repair paradigms fail to capture. To bridge this gap, we propose SWE-CI, the first repository-level benchmark built upon the Continuous Integration loop, aiming to shift the evaluation paradigm for code generation from static, short-term functional correctness toward dynamic, long-term maintainability. The benchmark comprises 100 tasks, each corresponding on average to an evolution history spanning 233 days and 71 consecutive commits in a real-world code repository. SWE-CI requires agents to systematically resolve these tasks through dozens of rounds of analysis and coding iterations. SWE-CI provides valuable insights into how well agents can sustain code quality throughout long-term evolution.

SWE-CI : Évaluation des capacités des agents à maintenir des bases de code via l'intégration continue

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

Résumé

Support