LongCLI-Bench: Предварительный эталонный тест и исследование долгосрочного агентного программирования в интерфейсах командной строки

Аннотация

Последние достижения в области программирования с ИИ-ассистентами позволили агентам выполнять сложные рабочие процессы через командные интерфейсы. Однако существующие бенчмарки ограничены короткими горизонтами задач, загрязнением данных из-за сканирования GitHub и отсутствием детализированных метрик оценки, что не позволяет строго оценивать способности к долгосрочному планированию и выполнению, критически важные для реальной инженерной разработки. Для устранения этих пробелов мы представляем LongCLI-Bench — комплексный бенчмарк, предназначенный для оценки агентских возможностей в долгосрочных реалистичных задачах. Мы отобрали 20 качественных задач с длинным горизонтом из более чем 1000 заданий по информатике и реальных рабочих процессов, охватывающих четыре инженерные категории: разработка с нуля, добавление функциональности, исправление ошибок и рефакторинг. Мы предлагаем для LongCLI-Bench двухуровневый протокол тестирования, который измеряет выполнение требований (fail-to-pass) и избежание регрессии (pass-to-pass), а также включает пошаговую оценку для точного определения сбоев выполнения. Масштабные эксперименты показывают, что даже передовые агенты достигают в LongCLI-Bench уровня успешного выполнения менее 20%. Пошаговый анализ дополнительно указывает, что большинство задач останавливаются на отметке менее 30% завершённости, что свидетельствует о частых критических сбоях на ранних этапах. Хотя самокоррекция даёт незначительное улучшение, взаимодействие человека и агента через внедрение планов и интерактивное руководство приводит к существенно более высоким результатам. Эти результаты подчёркивают, что будущие исследования должны быть сосредоточены на разработке синергетических рабочих процессов человека и агента параллельно с совершенствованием способностей агентов к планированию и выполнению для преодоления ключевых проблем в выполнении задач с длинным горизонтом.

English

Recent advances in AI-assisted programming have empowered agents to execute complex workflows via command-line interfaces, however, existing benchmarks are limited by short task horizons, data contamination from GitHub scraping, and a lack of fine-grained evaluation metrics, fail to rigorously evaluate the long-horizon planning and execution capabilities essential for realistic software engineering. To address these gaps, we introduce LongCLI-Bench, a comprehensive benchmark designed to evaluate agentic capabilities across long-horizon, realistic tasks. We curated 20 high-quality, long-horizon tasks from over 1,000 computer science assignments and real-world workflows, covering four engineering categories: from scratch, feature addition, bug fixing, and refactoring. We propose a dual-set testing protocol for LongCLI-Bench, which measures requirement fulfillment (fail-to-pass) and regression avoidance (pass-to-pass), and incorporates step-level scoring to pinpoint execution failures. Extensive experiments reveal that even state-of-the-art agents achieve pass rates below 20% in LongCLI-Bench. Step-level analysis further indicates that the majority of tasks stall at less than 30% completion, highlighting that critical failures often occur in the early stages. Although self-correction offers marginal gains, human-agent collaboration through plan injection and interactive guidance yields significantly higher improvements. These results highlight that future research must emphasize the development of synergistic human-agent workflows alongside advances in agents' planning and execution capabilities to overcome key challenges in long-horizon task performance.

LongCLI-Bench: Предварительный эталонный тест и исследование долгосрочного агентного программирования в интерфейсах командной строки

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Аннотация

Support