LongCLI-Bench: Een eerste benchmark en onderzoek naar langetermijn-agentgebaseerd programmeren in commandoregelinterfaces
LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces
February 15, 2026
Auteurs: Yukang Feng, Jianwen Sun, Zelai Yang, Jiaxin Ai, Chuanhao Li, Zizhen Li, Fanrui Zhang, Kang He, Rui Ma, Jifan Lin, Jie Sun, Yang Xiao, Sizhuo Zhou, Wenxiao Wu, Yiming Liu, Pengfei Liu, Yu Qiao, Shenglin Zhang, Kaipeng Zhang
cs.AI
Samenvatting
Recente vooruitgang in AI-gestuurd programmeren heeft agents in staat gesteld om complexe workflows uit te voeren via opdrachtregelinterfaces. Bestaande benchmarks worden echter beperkt door korte taakhorizons, datacontaminatie door scraping van GitHub, en een gebrek aan fijnmazige evaluatiemetrics, waardoor ze niet in staat zijn om de planning- en uitvoeringscapaciteiten op lange termijn, die essentieel zijn voor realistische software-engineering, rigoureus te evalueren. Om deze tekortkomingen aan te pakken, introduceren we LongCLI-Bench, een uitgebreide benchmark die is ontworpen om agent-capaciteiten te evalueren bij realistische taken met een lange horizon.
We hebben 20 hoogwaardige, langlopende taken geselecteerd uit meer dan 1.000 computerwetenschappelijke opdrachten en real-world workflows, verdeeld over vier technische categorieën: from scratch, feature addition, bug fixing en refactoring. We stellen een dual-set testprotocol voor voor LongCLI-Bench, dat zowel de vervulling van vereisten (fail-to-pass) als het vermijden van regressie (pass-to-pass) meet, en dat stap-voor-stap scoring incorporeert om uitvoeringsfouten te lokaliseren.
Uitgebreide experimenten tonen aan dat zelfs state-of-the-art agents slagingspercentages halen onder de 20% in LongCLI-Bench. Analyse op stapniveau geeft verder aan dat de meerderheid van de taken stagneert bij minder dan 30% voltooiing, wat aantoont dat kritieke fouten vaak in de vroege fasen optreden. Hoewel zelfcorrectie marginale verbeteringen biedt, leidt mens-agent samenwerking via planinjectie en interactieve begeleiding tot aanzienlijk hogere verbeteringen.
Deze resultaten benadrukken dat toekomstig onderzoek de ontwikkeling van synergetische mens-agent workflows moet benadrukken, naast vooruitgang in de planning- en uitvoeringscapaciteiten van agents, om de belangrijkste uitdagingen in de prestaties van taken met een lange horizon te overwinnen.
English
Recent advances in AI-assisted programming have empowered agents to execute complex workflows via command-line interfaces, however, existing benchmarks are limited by short task horizons, data contamination from GitHub scraping, and a lack of fine-grained evaluation metrics, fail to rigorously evaluate the long-horizon planning and execution capabilities essential for realistic software engineering. To address these gaps, we introduce LongCLI-Bench, a comprehensive benchmark designed to evaluate agentic capabilities across long-horizon, realistic tasks. We curated 20 high-quality, long-horizon tasks from over 1,000 computer science assignments and real-world workflows, covering four engineering categories: from scratch, feature addition, bug fixing, and refactoring. We propose a dual-set testing protocol for LongCLI-Bench, which measures requirement fulfillment (fail-to-pass) and regression avoidance (pass-to-pass), and incorporates step-level scoring to pinpoint execution failures. Extensive experiments reveal that even state-of-the-art agents achieve pass rates below 20% in LongCLI-Bench. Step-level analysis further indicates that the majority of tasks stall at less than 30% completion, highlighting that critical failures often occur in the early stages. Although self-correction offers marginal gains, human-agent collaboration through plan injection and interactive guidance yields significantly higher improvements. These results highlight that future research must emphasize the development of synergistic human-agent workflows alongside advances in agents' planning and execution capabilities to overcome key challenges in long-horizon task performance.