LoCoBench-Agent: Интерактивный бенчмарк для агентов на основе больших языковых моделей в задачах разработки программного обеспечения с длинным контекстом

Аннотация

По мере того как большие языковые модели (LLMs) превращаются в сложных автономных агентов, способных выполнять комплексные задачи разработки программного обеспечения, оценка их реальных возможностей становится критически важной. Хотя существующие бенчмарки, такие как LoCoBench~qiu2025locobench, оценивают понимание кода в длинном контексте, они ориентированы на одношаговую оценку и не могут охватить интерактивную природу многотурового взаимодействия, паттерны использования инструментов и адаптивные рассуждения, необходимые реальным агентам программирования. Мы представляем LoCoBench-Agent — комплексную систему оценки, специально разработанную для тестирования LLM-агентов в реалистичных рабочих процессах разработки ПО с длинным контекстом. Наша система расширяет 8000 сценариев LoCoBench до интерактивных сред для агентов, позволяя проводить систематическую оценку многотуровых диалогов, эффективности использования инструментов, восстановления после ошибок и архитектурной согласованности в ходе продолжительных сессий разработки. Мы также вводим методологию оценки с 9 метриками по измерениям понимания и эффективности. Наша система предоставляет агентам 8 специализированных инструментов (файловые операции, поиск, анализ кода) и оценивает их в диапазоне длин контекста от 10K до 1M токенов, что позволяет точно оценивать производительность в условиях длинного контекста. В результате систематической оценки современных моделей мы выявили несколько ключевых выводов: (1) агенты демонстрируют выдающуюся устойчивость к длинному контексту; (2) существует компромисс между пониманием и эффективностью с отрицательной корреляцией, где тщательное исследование повышает понимание, но снижает эффективность; и (3) эффективность диалога существенно различается между моделями, причем стратегические паттерны использования инструментов отличают высокопроизводительных агентов. Являясь первым бенчмарком для LLM-агентов с длинным контекстом в области разработки ПО, LoCoBench-Agent закладывает строгую основу для измерения возможностей агентов, выявления пробелов в производительности и развития масштабируемой автономной разработки программного обеспечения.

English

As large language models (LLMs) evolve into sophisticated autonomous agents capable of complex software development tasks, evaluating their real-world capabilities becomes critical. While existing benchmarks like LoCoBench~qiu2025locobench assess long-context code understanding, they focus on single-turn evaluation and cannot capture the multi-turn interactive nature, tool usage patterns, and adaptive reasoning required by real-world coding agents. We introduce LoCoBench-Agent, a comprehensive evaluation framework specifically designed to assess LLM agents in realistic, long-context software engineering workflows. Our framework extends LoCoBench's 8,000 scenarios into interactive agent environments, enabling systematic evaluation of multi-turn conversations, tool usage efficiency, error recovery, and architectural consistency across extended development sessions. We also introduce an evaluation methodology with 9 metrics across comprehension and efficiency dimensions. Our framework provides agents with 8 specialized tools (file operations, search, code analysis) and evaluates them across context lengths ranging from 10K to 1M tokens, enabling precise assessment of long-context performance. Through systematic evaluation of state-of-the-art models, we reveal several key findings: (1) agents exhibit remarkable long-context robustness; (2) comprehension-efficiency trade-off exists with negative correlation, where thorough exploration increases comprehension but reduces efficiency; and (3) conversation efficiency varies dramatically across models, with strategic tool usage patterns differentiating high-performing agents. As the first long-context LLM agent benchmark for software engineering, LoCoBench-Agent establishes a rigorous foundation for measuring agent capabilities, identifying performance gaps, and advancing autonomous software development at scale.

LoCoBench-Agent: Интерактивный бенчмарк для агентов на основе больших языковых моделей в задачах разработки программного обеспечения с длинным контекстом

LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

Аннотация

Support