SWE-CI: Bewertung von Agenten-Fähigkeiten zur Wartung von Codebasen mittels Continuous Integration
SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration
March 4, 2026
Autoren: Jialong Chen, Xander Xu, Hu Wei, Chuan Chen, Bing Zhao
cs.AI
Zusammenfassung
Von großen Sprachmodellen (LLM) gesteuerte Agenten haben starke Fähigkeiten bei der Automatisierung von Softwareentwicklungsaufgaben wie der statischen Fehlerbehebung demonstriert, wie Benchmarks wie SWE-bench belegen. In der realen Welt basiert die Entwicklung ausgereifter Software jedoch typischerweise auf komplexen Anforderungsänderungen und langfristigen Feature-Iterationen – einen Prozess, den statische Einmal-Reparatur-Paradigmen nicht abbilden können. Um diese Lücke zu schließen, schlagen wir SWE-CI vor, den ersten Repository-basierten Benchmark, der auf dem Continuous-Integration-Zyklus aufbaut. Ziel ist es, das Bewertungsparadigma für Codegenerierung von statischer, kurzfristiger funktionaler Korrektheit hin zu dynamischer, langfristiger Wartbarkeit zu verschieben. Der Benchmark umfasst 100 Aufgaben, wobei jede durchschnittlich einer Entwicklungsgeschichte von 233 Tagen und 71 aufeinanderfolgenden Commits in einem realen Code-Repository entspricht. SWE-CI erfordert, dass Agenten diese Aufgaben systematisch durch Dutzende von Analyse- und Codierungsiterationen lösen. SWE-CI liefert wertvolle Einblicke darin, wie gut Agenten die Codequalität während der gesamten langfristigen Evolution aufrechterhalten können.
English
Large language model (LLM)-powered agents have demonstrated strong capabilities in automating software engineering tasks such as static bug fixing, as evidenced by benchmarks like SWE-bench. However, in the real world, the development of mature software is typically predicated on complex requirement changes and long-term feature iterations -- a process that static, one-shot repair paradigms fail to capture. To bridge this gap, we propose SWE-CI, the first repository-level benchmark built upon the Continuous Integration loop, aiming to shift the evaluation paradigm for code generation from static, short-term functional correctness toward dynamic, long-term maintainability. The benchmark comprises 100 tasks, each corresponding on average to an evolution history spanning 233 days and 71 consecutive commits in a real-world code repository. SWE-CI requires agents to systematically resolve these tasks through dozens of rounds of analysis and coding iterations. SWE-CI provides valuable insights into how well agents can sustain code quality throughout long-term evolution.