LongCLI-Bench : Une étude préliminaire et un benchmark pour la programmation agentique à long terme dans les interfaces en ligne de commande

Résumé

Les progrès récents en programmation assistée par l'IA ont permis à des agents d'exécuter des workflows complexes via des interfaces en ligne de commande. Cependant, les benchmarks existants présentent des limites : des horizons de tâches trop courts, une contamination des données due au scraping de GitHub, et un manque de métriques d'évaluation granulaires, ce qui les rend incapables d'évaluer rigoureusement les capacités de planification et d'exécution à long terme essentielles pour l'ingénierie logicielle réaliste. Pour combler ces lacunes, nous présentons LongCLI-Bench, un benchmark complet conçu pour évaluer les capacités des agents sur des tâches réalistes et à long horizon. Nous avons sélectionné 20 tâches de haute qualité et à long horizon parmi plus de 1 000 travaux pratiques en informatique et workflows réels, couvrant quatre catégories d'ingénierie : développement à partir de zéro, ajout de fonctionnalités, correction de bugs et refactorisation. Nous proposons un protocole de test à double entrée pour LongCLI-Bench, qui mesure la satisfaction des exigences (échec-vers-réussite) et l'évitement des régressions (réussite-vers-réussite), et intègre un scoring étape par étape pour identifier précisément les échecs d'exécution. Des expériences approfondies révèlent que même les agents les plus avancés obtiennent des taux de réussite inférieurs à 20 % sur LongCLI-Bench. L'analyse étape par étape indique en outre que la majorité des tâches stagnent à moins de 30 % d'avancement, soulignant que les échecs critiques surviennent souvent dès les premières phases. Bien que l'auto-correction apporte des gains marginaux, la collaboration humain-agent via l'injection de plans et le guidage interactif permet des améliorations significativement plus importantes. Ces résultats soulignent que les recherches futures doivent accentuer le développement de workflows synergiques humain-agent parallèlement aux progrès dans les capacités de planification et d'exécution des agents pour surmonter les défis clés de la performance sur des tâches à long horizon.

English

Recent advances in AI-assisted programming have empowered agents to execute complex workflows via command-line interfaces, however, existing benchmarks are limited by short task horizons, data contamination from GitHub scraping, and a lack of fine-grained evaluation metrics, fail to rigorously evaluate the long-horizon planning and execution capabilities essential for realistic software engineering. To address these gaps, we introduce LongCLI-Bench, a comprehensive benchmark designed to evaluate agentic capabilities across long-horizon, realistic tasks. We curated 20 high-quality, long-horizon tasks from over 1,000 computer science assignments and real-world workflows, covering four engineering categories: from scratch, feature addition, bug fixing, and refactoring. We propose a dual-set testing protocol for LongCLI-Bench, which measures requirement fulfillment (fail-to-pass) and regression avoidance (pass-to-pass), and incorporates step-level scoring to pinpoint execution failures. Extensive experiments reveal that even state-of-the-art agents achieve pass rates below 20% in LongCLI-Bench. Step-level analysis further indicates that the majority of tasks stall at less than 30% completion, highlighting that critical failures often occur in the early stages. Although self-correction offers marginal gains, human-agent collaboration through plan injection and interactive guidance yields significantly higher improvements. These results highlight that future research must emphasize the development of synergistic human-agent workflows alongside advances in agents' planning and execution capabilities to overcome key challenges in long-horizon task performance.

LongCLI-Bench : Une étude préliminaire et un benchmark pour la programmation agentique à long terme dans les interfaces en ligne de commande

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Résumé

Support