LongCLI-Bench: Ein vorläufiger Benchmark und eine Studie zur langfristigen agentenbasierten Programmierung in Kommandozeilenumgebungen
LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces
February 15, 2026
Autoren: Yukang Feng, Jianwen Sun, Zelai Yang, Jiaxin Ai, Chuanhao Li, Zizhen Li, Fanrui Zhang, Kang He, Rui Ma, Jifan Lin, Jie Sun, Yang Xiao, Sizhuo Zhou, Wenxiao Wu, Yiming Liu, Pengfei Liu, Yu Qiao, Shenglin Zhang, Kaipeng Zhang
cs.AI
Zusammenfassung
Jüngste Fortschritte bei der KI-gesteuerten Programmierung haben es Agenten ermöglicht, komplexe Workflows über Kommandozeilenschnittstellen auszuführen. Allerdings sind bestehende Benchmarks durch kurze Aufgabenhorizonte, Datenkontamination durch GitHub-Scraping und einen Mangel an feingranularen Bewertungsmetriken eingeschränkt, sodass sie die für realistische Softwareentwicklung entscheidenden Fähigkeiten zur langfristigen Planung und Ausführung nicht rigoros evaluieren können. Um diese Lücken zu schließen, führen wir LongCLI-Bench ein, einen umfassenden Benchmark zur Bewertung agentenbasierter Fähigkeiten in langfristigen, realistischen Aufgaben. Wir haben 20 hochwertige, langfristige Aufgaben aus über 1.000 Informatikübungen und realen Workflows in vier Ingenieurskategorien kuratiert: Entwicklung von Grund auf, Funktionserweiterung, Fehlerbehebung und Refactoring. Für LongCLI-Bench schlagen wir ein Dual-Set-Testprotokoll vor, das die Anforderungserfüllung (Fail-to-Pass) und die Vermeidung von Regressionen (Pass-to-Pass) misst und eine schrittweise Bewertung zur genauen Lokalisierung von Ausführungsfehlern integriert. Umfangreiche Experimente zeigen, dass selbst modernste Agenten in LongCLI-Bench Erfolgsquoten von unter 20 % erreichen. Die schrittweise Analyse verdeutlicht weiterhin, dass die Mehrheit der Aufgaben bei weniger als 30 % Fertigstellung stagniert, was darauf hindeutet, dass kritische Fehler häufig in frühen Phasen auftreten. Obwohl Selbstkorrektur geringfügige Verbesserungen bringt, erzielt die Mensch-Agent-Kollaboration durch Planinjektion und interaktive Führung signifikant größere Fortschritte. Diese Ergebnisse unterstreichen, dass zukünftige Forschung die Entwicklung synergistischer Mensch-Agent-Workflows ebenso vorantreiben muss wie die Verbesserung der Planungs- und Ausführungsfähigkeiten von Agenten, um Schlüsselherausforderungen bei langfristigen Aufgaben zu bewältigen.
English
Recent advances in AI-assisted programming have empowered agents to execute complex workflows via command-line interfaces, however, existing benchmarks are limited by short task horizons, data contamination from GitHub scraping, and a lack of fine-grained evaluation metrics, fail to rigorously evaluate the long-horizon planning and execution capabilities essential for realistic software engineering. To address these gaps, we introduce LongCLI-Bench, a comprehensive benchmark designed to evaluate agentic capabilities across long-horizon, realistic tasks. We curated 20 high-quality, long-horizon tasks from over 1,000 computer science assignments and real-world workflows, covering four engineering categories: from scratch, feature addition, bug fixing, and refactoring. We propose a dual-set testing protocol for LongCLI-Bench, which measures requirement fulfillment (fail-to-pass) and regression avoidance (pass-to-pass), and incorporates step-level scoring to pinpoint execution failures. Extensive experiments reveal that even state-of-the-art agents achieve pass rates below 20% in LongCLI-Bench. Step-level analysis further indicates that the majority of tasks stall at less than 30% completion, highlighting that critical failures often occur in the early stages. Although self-correction offers marginal gains, human-agent collaboration through plan injection and interactive guidance yields significantly higher improvements. These results highlight that future research must emphasize the development of synergistic human-agent workflows alongside advances in agents' planning and execution capabilities to overcome key challenges in long-horizon task performance.