LongCLI-Bench: Un Benchmark Preliminar y Estudio sobre Programación Agéntica de Largo Horizonte en Interfaces de Línea de Comandos

Resumen

Los recientes avances en la programación asistida por IA han permitido a los agentes ejecutar flujos de trabajo complejos mediante interfaces de línea de comandos. Sin embargo, los puntos de referencia existentes adolecen de horizontes de tarea cortos, contaminación de datos por el scraping de GitHub y una falta de métricas de evaluación detalladas, lo que impide evaluar rigurosamente las capacidades de planificación y ejecución a largo plazo esenciales para la ingeniería de software realista. Para abordar estas deficiencias, presentamos LongCLI-Bench, un punto de referencia integral diseñado para evaluar las capacidades de los agentes en tareas realistas y de largo horizonte. Seleccionamos 20 tareas de alta calidad y largo horizonte de entre más de 1,000 asignaciones de ciencias de la computación y flujos de trabajo del mundo real, cubriendo cuatro categorías de ingeniería: desde cero, adición de características, corrección de errores y refactorización. Proponemos un protocolo de prueba de doble conjunto para LongCLI-Bench, que mide el cumplimiento de requisitos (de fallo a aprobado) y la evitación de regresiones (de aprobado a aprobado), e incorpora una puntuación a nivel de paso para identificar fallos de ejecución. Experimentos exhaustivos revelan que incluso los agentes más avanzados logran tasas de aprobación inferiores al 20% en LongCLI-Bench. El análisis a nivel de paso indica además que la mayoría de las tareas se estancan en menos del 30% de finalización, destacando que los fallos críticos a menudo ocurren en las etapas iniciales. Aunque la autocorrección ofrece mejoras marginales, la colaboración humano-agente mediante la inyección de planes y la guía interactiva produce mejoras significativamente mayores. Estos resultados subrayan que la investigación futura debe enfatizar el desarrollo de flujos de trabajo humano-agente sinérgicos junto con avances en las capacidades de planificación y ejecución de los agentes para superar los desafíos clave en el rendimiento de tareas de largo horizonte.

English

Recent advances in AI-assisted programming have empowered agents to execute complex workflows via command-line interfaces, however, existing benchmarks are limited by short task horizons, data contamination from GitHub scraping, and a lack of fine-grained evaluation metrics, fail to rigorously evaluate the long-horizon planning and execution capabilities essential for realistic software engineering. To address these gaps, we introduce LongCLI-Bench, a comprehensive benchmark designed to evaluate agentic capabilities across long-horizon, realistic tasks. We curated 20 high-quality, long-horizon tasks from over 1,000 computer science assignments and real-world workflows, covering four engineering categories: from scratch, feature addition, bug fixing, and refactoring. We propose a dual-set testing protocol for LongCLI-Bench, which measures requirement fulfillment (fail-to-pass) and regression avoidance (pass-to-pass), and incorporates step-level scoring to pinpoint execution failures. Extensive experiments reveal that even state-of-the-art agents achieve pass rates below 20% in LongCLI-Bench. Step-level analysis further indicates that the majority of tasks stall at less than 30% completion, highlighting that critical failures often occur in the early stages. Although self-correction offers marginal gains, human-agent collaboration through plan injection and interactive guidance yields significantly higher improvements. These results highlight that future research must emphasize the development of synergistic human-agent workflows alongside advances in agents' planning and execution capabilities to overcome key challenges in long-horizon task performance.

LongCLI-Bench: Un Benchmark Preliminar y Estudio sobre Programación Agéntica de Largo Horizonte en Interfaces de Línea de Comandos

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Resumen

Support