ChatPaper.aiChatPaper

LongCLI-Bench: Предварительный эталонный тест и исследование долгосрочного агентного программирования в интерфейсах командной строки

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

February 15, 2026
Авторы: Yukang Feng, Jianwen Sun, Zelai Yang, Jiaxin Ai, Chuanhao Li, Zizhen Li, Fanrui Zhang, Kang He, Rui Ma, Jifan Lin, Jie Sun, Yang Xiao, Sizhuo Zhou, Wenxiao Wu, Yiming Liu, Pengfei Liu, Yu Qiao, Shenglin Zhang, Kaipeng Zhang
cs.AI

Аннотация

Последние достижения в области программирования с ИИ-ассистентами позволили агентам выполнять сложные рабочие процессы через командные интерфейсы. Однако существующие бенчмарки ограничены короткими горизонтами задач, загрязнением данных из-за сканирования GitHub и отсутствием детализированных метрик оценки, что не позволяет строго оценивать способности к долгосрочному планированию и выполнению, критически важные для реальной инженерной разработки. Для устранения этих пробелов мы представляем LongCLI-Bench — комплексный бенчмарк, предназначенный для оценки агентских возможностей в долгосрочных реалистичных задачах. Мы отобрали 20 качественных задач с длинным горизонтом из более чем 1000 заданий по информатике и реальных рабочих процессов, охватывающих четыре инженерные категории: разработка с нуля, добавление функциональности, исправление ошибок и рефакторинг. Мы предлагаем для LongCLI-Bench двухуровневый протокол тестирования, который измеряет выполнение требований (fail-to-pass) и избежание регрессии (pass-to-pass), а также включает пошаговую оценку для точного определения сбоев выполнения. Масштабные эксперименты показывают, что даже передовые агенты достигают в LongCLI-Bench уровня успешного выполнения менее 20%. Пошаговый анализ дополнительно указывает, что большинство задач останавливаются на отметке менее 30% завершённости, что свидетельствует о частых критических сбоях на ранних этапах. Хотя самокоррекция даёт незначительное улучшение, взаимодействие человека и агента через внедрение планов и интерактивное руководство приводит к существенно более высоким результатам. Эти результаты подчёркивают, что будущие исследования должны быть сосредоточены на разработке синергетических рабочих процессов человека и агента параллельно с совершенствованием способностей агентов к планированию и выполнению для преодоления ключевых проблем в выполнении задач с длинным горизонтом.
English
Recent advances in AI-assisted programming have empowered agents to execute complex workflows via command-line interfaces, however, existing benchmarks are limited by short task horizons, data contamination from GitHub scraping, and a lack of fine-grained evaluation metrics, fail to rigorously evaluate the long-horizon planning and execution capabilities essential for realistic software engineering. To address these gaps, we introduce LongCLI-Bench, a comprehensive benchmark designed to evaluate agentic capabilities across long-horizon, realistic tasks. We curated 20 high-quality, long-horizon tasks from over 1,000 computer science assignments and real-world workflows, covering four engineering categories: from scratch, feature addition, bug fixing, and refactoring. We propose a dual-set testing protocol for LongCLI-Bench, which measures requirement fulfillment (fail-to-pass) and regression avoidance (pass-to-pass), and incorporates step-level scoring to pinpoint execution failures. Extensive experiments reveal that even state-of-the-art agents achieve pass rates below 20% in LongCLI-Bench. Step-level analysis further indicates that the majority of tasks stall at less than 30% completion, highlighting that critical failures often occur in the early stages. Although self-correction offers marginal gains, human-agent collaboration through plan injection and interactive guidance yields significantly higher improvements. These results highlight that future research must emphasize the development of synergistic human-agent workflows alongside advances in agents' planning and execution capabilities to overcome key challenges in long-horizon task performance.
PDF133March 28, 2026