SWE-CI: Valutazione delle Capacità degli Agenti nel Mantenimento di Codebases tramite Integrazione Continua

Abstract

Gli agenti basati su Large Language Model (LLM) hanno dimostrato notevoli capacità nell'automatizzare compiti di ingegneria del software come la correzione statica di bug, come evidenziato da benchmark come SWE-bench. Tuttavia, nel mondo reale, lo sviluppo di software maturo si basa tipicamente su complessi cambiamenti dei requisiti e iterazioni funzionali di lungo termine – un processo che i paradigmi di riparazione statici e one-shot non riescono a cogliere. Per colmare questa lacuna, proponiamo SWE-CI, il primo benchmark a livello di repository costruito sul ciclo di Continuous Integration, con l'obiettivo di spostare il paradigma di valutazione per la generazione di codice dalla correttezza funzionale statica e a breve termine verso la manutenibilità dinamica e di lungo periodo. Il benchmark comprende 100 task, ciascuno corrispondente in media a una cronologia evolutiva di 233 giorni e 71 commit consecutivi in un repository di codice reale. SWE-CI richiede agli agenti di risolvere sistematicamente questi task attraverso decine di cicli di analisi e iterazioni di codifica. SWE-CI fornisce preziose indicazioni su quanto bene gli agenti possano mantenere la qualità del codice durante l'evoluzione di lungo termine.

English

Large language model (LLM)-powered agents have demonstrated strong capabilities in automating software engineering tasks such as static bug fixing, as evidenced by benchmarks like SWE-bench. However, in the real world, the development of mature software is typically predicated on complex requirement changes and long-term feature iterations -- a process that static, one-shot repair paradigms fail to capture. To bridge this gap, we propose SWE-CI, the first repository-level benchmark built upon the Continuous Integration loop, aiming to shift the evaluation paradigm for code generation from static, short-term functional correctness toward dynamic, long-term maintainability. The benchmark comprises 100 tasks, each corresponding on average to an evolution history spanning 233 days and 71 consecutive commits in a real-world code repository. SWE-CI requires agents to systematically resolve these tasks through dozens of rounds of analysis and coding iterations. SWE-CI provides valuable insights into how well agents can sustain code quality throughout long-term evolution.

SWE-CI: Valutazione delle Capacità degli Agenti nel Mantenimento di Codebases tramite Integrazione Continua

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

Abstract

Support