LongCLI-Bench: Un Benchmark Preliminare e uno Studio sulla Programmazione Agente a Lungo Orizzonte nelle Interfacce a Righe di Comando
LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces
February 15, 2026
Autori: Yukang Feng, Jianwen Sun, Zelai Yang, Jiaxin Ai, Chuanhao Li, Zizhen Li, Fanrui Zhang, Kang He, Rui Ma, Jifan Lin, Jie Sun, Yang Xiao, Sizhuo Zhou, Wenxiao Wu, Yiming Liu, Pengfei Liu, Yu Qiao, Shenglin Zhang, Kaipeng Zhang
cs.AI
Abstract
I recenti progressi nella programmazione assistita dall'IA hanno potenziato gli agenti nell'eseguire flussi di lavoro complessi tramite interfacce a riga di comando. Tuttavia, i benchmark esistenti sono limitati da orizzonti temporali brevi, contaminazione dei dati dovuta allo scraping di GitHub e una mancanza di metriche di valutazione granulari, fallendo nel valutare rigorosamente le capacità di pianificazione ed esecuzione a lungo termine essenziali per l'ingegneria del software realistica. Per colmare queste lacune, introduciamo LongCLI-Bench, un benchmark completo progettato per valutare le capacità agentive su compiti realistici e a lungo termine. Abbiamo curato 20 compiti di alta qualità e lungo orizzonte da oltre 1.000 assegnazioni di informatica e flussi di lavoro del mondo reale, coprendo quattro categorie ingegneristiche: sviluppo da zero, aggiunta di funzionalità, correzione di bug e refactoring. Proponiamo un protocollo di test a doppio set per LongCLI-Bench, che misura l'adempimento dei requisiti (da fallito a superato) e l'evitamento di regressioni (da superato a superato), incorporando una valutazione a livello di step per identificare i fallimenti esecutivi. Esperimenti estensivi rivelano che anche gli agenti più all'avanguardia raggiungono tassi di successo inferiori al 20% in LongCLI-Bench. L'analisi a livello di step indica inoltre che la maggior parte dei compiti si blocca a meno del 30% del completamento, evidenziando che i fallimenti critici spesso si verificano nelle fasi iniziali. Sebbene l'autocorrezione offra miglioramenti marginali, la collaborazione uomo-agente tramite l'iniezione di piani e la guida interattiva produce miglioramenti significativamente maggiori. Questi risultati sottolineano che la ricerca futura deve enfatizzare lo sviluppo di flussi di lavoro sinergici uomo-agente insieme ai progressi nelle capacità di pianificazione ed esecuzione degli agenti per superare le principali sfide nelle prestazioni dei compiti a lungo termine.
English
Recent advances in AI-assisted programming have empowered agents to execute complex workflows via command-line interfaces, however, existing benchmarks are limited by short task horizons, data contamination from GitHub scraping, and a lack of fine-grained evaluation metrics, fail to rigorously evaluate the long-horizon planning and execution capabilities essential for realistic software engineering. To address these gaps, we introduce LongCLI-Bench, a comprehensive benchmark designed to evaluate agentic capabilities across long-horizon, realistic tasks. We curated 20 high-quality, long-horizon tasks from over 1,000 computer science assignments and real-world workflows, covering four engineering categories: from scratch, feature addition, bug fixing, and refactoring. We propose a dual-set testing protocol for LongCLI-Bench, which measures requirement fulfillment (fail-to-pass) and regression avoidance (pass-to-pass), and incorporates step-level scoring to pinpoint execution failures. Extensive experiments reveal that even state-of-the-art agents achieve pass rates below 20% in LongCLI-Bench. Step-level analysis further indicates that the majority of tasks stall at less than 30% completion, highlighting that critical failures often occur in the early stages. Although self-correction offers marginal gains, human-agent collaboration through plan injection and interactive guidance yields significantly higher improvements. These results highlight that future research must emphasize the development of synergistic human-agent workflows alongside advances in agents' planning and execution capabilities to overcome key challenges in long-horizon task performance.