LongCLI-Bench: Un Benchmark Preliminare e uno Studio sulla Programmazione Agente a Lungo Orizzonte nelle Interfacce a Righe di Comando

Abstract

I recenti progressi nella programmazione assistita dall'IA hanno potenziato gli agenti nell'eseguire flussi di lavoro complessi tramite interfacce a riga di comando. Tuttavia, i benchmark esistenti sono limitati da orizzonti temporali brevi, contaminazione dei dati dovuta allo scraping di GitHub e una mancanza di metriche di valutazione granulari, fallendo nel valutare rigorosamente le capacità di pianificazione ed esecuzione a lungo termine essenziali per l'ingegneria del software realistica. Per colmare queste lacune, introduciamo LongCLI-Bench, un benchmark completo progettato per valutare le capacità agentive su compiti realistici e a lungo termine. Abbiamo curato 20 compiti di alta qualità e lungo orizzonte da oltre 1.000 assegnazioni di informatica e flussi di lavoro del mondo reale, coprendo quattro categorie ingegneristiche: sviluppo da zero, aggiunta di funzionalità, correzione di bug e refactoring. Proponiamo un protocollo di test a doppio set per LongCLI-Bench, che misura l'adempimento dei requisiti (da fallito a superato) e l'evitamento di regressioni (da superato a superato), incorporando una valutazione a livello di step per identificare i fallimenti esecutivi. Esperimenti estensivi rivelano che anche gli agenti più all'avanguardia raggiungono tassi di successo inferiori al 20% in LongCLI-Bench. L'analisi a livello di step indica inoltre che la maggior parte dei compiti si blocca a meno del 30% del completamento, evidenziando che i fallimenti critici spesso si verificano nelle fasi iniziali. Sebbene l'autocorrezione offra miglioramenti marginali, la collaborazione uomo-agente tramite l'iniezione di piani e la guida interattiva produce miglioramenti significativamente maggiori. Questi risultati sottolineano che la ricerca futura deve enfatizzare lo sviluppo di flussi di lavoro sinergici uomo-agente insieme ai progressi nelle capacità di pianificazione ed esecuzione degli agenti per superare le principali sfide nelle prestazioni dei compiti a lungo termine.

English

Recent advances in AI-assisted programming have empowered agents to execute complex workflows via command-line interfaces, however, existing benchmarks are limited by short task horizons, data contamination from GitHub scraping, and a lack of fine-grained evaluation metrics, fail to rigorously evaluate the long-horizon planning and execution capabilities essential for realistic software engineering. To address these gaps, we introduce LongCLI-Bench, a comprehensive benchmark designed to evaluate agentic capabilities across long-horizon, realistic tasks. We curated 20 high-quality, long-horizon tasks from over 1,000 computer science assignments and real-world workflows, covering four engineering categories: from scratch, feature addition, bug fixing, and refactoring. We propose a dual-set testing protocol for LongCLI-Bench, which measures requirement fulfillment (fail-to-pass) and regression avoidance (pass-to-pass), and incorporates step-level scoring to pinpoint execution failures. Extensive experiments reveal that even state-of-the-art agents achieve pass rates below 20% in LongCLI-Bench. Step-level analysis further indicates that the majority of tasks stall at less than 30% completion, highlighting that critical failures often occur in the early stages. Although self-correction offers marginal gains, human-agent collaboration through plan injection and interactive guidance yields significantly higher improvements. These results highlight that future research must emphasize the development of synergistic human-agent workflows alongside advances in agents' planning and execution capabilities to overcome key challenges in long-horizon task performance.

LongCLI-Bench: Un Benchmark Preliminare e uno Studio sulla Programmazione Agente a Lungo Orizzonte nelle Interfacce a Righe di Comando

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Abstract

Support