LoCoBench-Agent: Интерактивный бенчмарк для агентов на основе больших языковых моделей в задачах разработки программного обеспечения с длинным контекстом
LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering
November 17, 2025
Авторы: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Roshan Ram, Akshara Prabhakar, Tulika Awalgaonkar, Zixiang Chen, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Аннотация
По мере того как большие языковые модели (LLMs) превращаются в сложных автономных агентов, способных выполнять комплексные задачи разработки программного обеспечения, оценка их реальных возможностей становится критически важной. Хотя существующие бенчмарки, такие как LoCoBench~qiu2025locobench, оценивают понимание кода в длинном контексте, они ориентированы на одношаговую оценку и не могут охватить интерактивную природу многотурового взаимодействия, паттерны использования инструментов и адаптивные рассуждения, необходимые реальным агентам программирования. Мы представляем LoCoBench-Agent — комплексную систему оценки, специально разработанную для тестирования LLM-агентов в реалистичных рабочих процессах разработки ПО с длинным контекстом. Наша система расширяет 8000 сценариев LoCoBench до интерактивных сред для агентов, позволяя проводить систематическую оценку многотуровых диалогов, эффективности использования инструментов, восстановления после ошибок и архитектурной согласованности в ходе продолжительных сессий разработки. Мы также вводим методологию оценки с 9 метриками по измерениям понимания и эффективности. Наша система предоставляет агентам 8 специализированных инструментов (файловые операции, поиск, анализ кода) и оценивает их в диапазоне длин контекста от 10K до 1M токенов, что позволяет точно оценивать производительность в условиях длинного контекста. В результате систематической оценки современных моделей мы выявили несколько ключевых выводов: (1) агенты демонстрируют выдающуюся устойчивость к длинному контексту; (2) существует компромисс между пониманием и эффективностью с отрицательной корреляцией, где тщательное исследование повышает понимание, но снижает эффективность; и (3) эффективность диалога существенно различается между моделями, причем стратегические паттерны использования инструментов отличают высокопроизводительных агентов. Являясь первым бенчмарком для LLM-агентов с длинным контекстом в области разработки ПО, LoCoBench-Agent закладывает строгую основу для измерения возможностей агентов, выявления пробелов в производительности и развития масштабируемой автономной разработки программного обеспечения.
English
As large language models (LLMs) evolve into sophisticated autonomous agents capable of complex software development tasks, evaluating their real-world capabilities becomes critical. While existing benchmarks like LoCoBench~qiu2025locobench assess long-context code understanding, they focus on single-turn evaluation and cannot capture the multi-turn interactive nature, tool usage patterns, and adaptive reasoning required by real-world coding agents. We introduce LoCoBench-Agent, a comprehensive evaluation framework specifically designed to assess LLM agents in realistic, long-context software engineering workflows. Our framework extends LoCoBench's 8,000 scenarios into interactive agent environments, enabling systematic evaluation of multi-turn conversations, tool usage efficiency, error recovery, and architectural consistency across extended development sessions. We also introduce an evaluation methodology with 9 metrics across comprehension and efficiency dimensions. Our framework provides agents with 8 specialized tools (file operations, search, code analysis) and evaluates them across context lengths ranging from 10K to 1M tokens, enabling precise assessment of long-context performance. Through systematic evaluation of state-of-the-art models, we reveal several key findings: (1) agents exhibit remarkable long-context robustness; (2) comprehension-efficiency trade-off exists with negative correlation, where thorough exploration increases comprehension but reduces efficiency; and (3) conversation efficiency varies dramatically across models, with strategic tool usage patterns differentiating high-performing agents. As the first long-context LLM agent benchmark for software engineering, LoCoBench-Agent establishes a rigorous foundation for measuring agent capabilities, identifying performance gaps, and advancing autonomous software development at scale.