LongCLI-Bench: Um Benchmark Preliminar e Estudo para Programação Agêntica de Longo Horizonte em Interfaces de Linha de Comando

Resumo

Os recentes avanços na programação assistida por IA capacitaram agentes para executar fluxos de trabalho complexos por meio de interfaces de linha de comando. No entanto, os benchmarks existentes são limitados por horizontes curtos de tarefas, contaminação de dados provenientes de scraping do GitHub e uma falta de métricas de avaliação refinadas, falhando em avaliar rigorosamente as capacidades de planejamento e execução de longo horizonte essenciais para a engenharia de software realista. Para abordar essas lacunas, introduzimos o LongCLI-Bench, um benchmark abrangente projetado para avaliar capacidades agentivas em tarefas realistas e de longo horizonte. Selecionamos 20 tarefas de alta qualidade e longo horizonte a partir de mais de 1.000 tarefas de ciência da computação e fluxos de trabalho do mundo real, abrangendo quatro categorias de engenharia: desenvolvimento do zero, adição de funcionalidades, correção de bugs e refatoração. Propomos um protocolo de teste de duplo conjunto para o LongCLI-Bench, que mede o cumprimento de requisitos (fail-to-pass) e a prevenção de regressões (pass-to-pass), e incorpora uma pontuação em nível de etapa para identificar falhas de execução. Experimentos extensivos revelam que mesmo os agentes mais avançados atingem taxas de aprovação abaixo de 20% no LongCLI-Bench. A análise em nível de etapa indica ainda que a maioria das tarefas estagna em menos de 30% de conclusão, destacando que falhas críticas frequentemente ocorrem nos estágios iniciais. Embora a autocorreção ofereça ganhos marginais, a colaboração humano-agente por meio de injeção de planos e orientação interativa resulta em melhorias significativamente maiores. Esses resultados destacam que pesquisas futuras devem enfatizar o desenvolvimento de fluxos de trabalho sinérgicos entre humanos e agentes, juntamente com avanços nas capacidades de planejamento e execução dos agentes, para superar os principais desafios no desempenho de tarefas de longo horizonte.

English

Recent advances in AI-assisted programming have empowered agents to execute complex workflows via command-line interfaces, however, existing benchmarks are limited by short task horizons, data contamination from GitHub scraping, and a lack of fine-grained evaluation metrics, fail to rigorously evaluate the long-horizon planning and execution capabilities essential for realistic software engineering. To address these gaps, we introduce LongCLI-Bench, a comprehensive benchmark designed to evaluate agentic capabilities across long-horizon, realistic tasks. We curated 20 high-quality, long-horizon tasks from over 1,000 computer science assignments and real-world workflows, covering four engineering categories: from scratch, feature addition, bug fixing, and refactoring. We propose a dual-set testing protocol for LongCLI-Bench, which measures requirement fulfillment (fail-to-pass) and regression avoidance (pass-to-pass), and incorporates step-level scoring to pinpoint execution failures. Extensive experiments reveal that even state-of-the-art agents achieve pass rates below 20% in LongCLI-Bench. Step-level analysis further indicates that the majority of tasks stall at less than 30% completion, highlighting that critical failures often occur in the early stages. Although self-correction offers marginal gains, human-agent collaboration through plan injection and interactive guidance yields significantly higher improvements. These results highlight that future research must emphasize the development of synergistic human-agent workflows alongside advances in agents' planning and execution capabilities to overcome key challenges in long-horizon task performance.

LongCLI-Bench: Um Benchmark Preliminar e Estudo para Programação Agêntica de Longo Horizonte em Interfaces de Linha de Comando

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Resumo

Support