SWE-CI: Evaluatie van Agent-capaciteiten in het Onderhouden van Codebases via Continue Integratie
SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration
March 4, 2026
Auteurs: Jialong Chen, Xander Xu, Hu Wei, Chuan Chen, Bing Zhao
cs.AI
Samenvatting
Door grote taalmodellen (LLM) aangedreven agents hebben sterke capaciteiten getoond bij het automatiseren van software-engineeringtaken, zoals statische bugreparatie, zoals blijkt uit benchmarks zoals SWE-bench. In de praktijk is de ontwikkeling van volwassen software echter meestal gebaseerd op complexe vereistewijzigingen en langdurige functie-iteraties – een proces dat statische, eenmalige reparatieparadigma's niet kunnen vatten. Om deze kloof te overbruggen, stellen wij SWE-CI voor, de eerste repository-brede benchmark die is opgebouwd rond de Continuous Integration-cyclus, met als doel het evaluatieparadigma voor codegeneratie te verschuiven van statische, kortetermijn-functionele correctheid naar dynamische, langetermijn-onderhoudbaarheid. De benchmark omvat 100 taken, waarbij elke taak gemiddeld overeenkomt met een evolutiegeschiedenis van 233 dagen en 71 opeenvolgende commits in een real-world coderepository. SWE-CI vereist dat agents deze taken systematisch oplossen via tientallen rondes van analyse en code-iteraties. SWE-CI biedt waardevolle inzichten in hoe goed agents de codekwaliteit kunnen waarborgen gedurende een langdurig evolutieproces.
English
Large language model (LLM)-powered agents have demonstrated strong capabilities in automating software engineering tasks such as static bug fixing, as evidenced by benchmarks like SWE-bench. However, in the real world, the development of mature software is typically predicated on complex requirement changes and long-term feature iterations -- a process that static, one-shot repair paradigms fail to capture. To bridge this gap, we propose SWE-CI, the first repository-level benchmark built upon the Continuous Integration loop, aiming to shift the evaluation paradigm for code generation from static, short-term functional correctness toward dynamic, long-term maintainability. The benchmark comprises 100 tasks, each corresponding on average to an evolution history spanning 233 days and 71 consecutive commits in a real-world code repository. SWE-CI requires agents to systematically resolve these tasks through dozens of rounds of analysis and coding iterations. SWE-CI provides valuable insights into how well agents can sustain code quality throughout long-term evolution.