LoCoBench-Agent: Um Benchmark Interativo para Agentes de LLM em Engenharia de Software de Contexto Longo
LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering
November 17, 2025
Autores: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Roshan Ram, Akshara Prabhakar, Tulika Awalgaonkar, Zixiang Chen, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Resumo
À medida que os modelos de linguagem de grande escala (LLMs) evoluem para agentes autónomos sofisticados capazes de tarefas complexas de desenvolvimento de software, avaliar as suas capacidades no mundo real torna-se crucial. Embora benchmarks existentes, como o LoCoBench~qiu2025locobench, avaliem a compreensão de código em contexto longo, eles focam-se na avaliação de turno único e não conseguem capturar a natureza interativa multi-turno, os padrões de uso de ferramentas e o raciocínio adaptativo exigidos por agentes de codificação do mundo real. Apresentamos o LoCoBench-Agent, uma estrutura de avaliação abrangente concebida especificamente para avaliar agentes de LLM em fluxos de trabalho realistas de engenharia de software de contexto longo. A nossa estrutura estende os 8.000 cenários do LoCoBench para ambientes interativos de agentes, permitindo a avaliação sistemática de conversas multi-turno, eficiência no uso de ferramentas, recuperação de erros e consistência arquitetónica em sessões de desenvolvimento prolongadas. Introduzimos também uma metodologia de avaliação com 9 métricas nas dimensões de compreensão e eficiência. A nossa estrutura fornece aos agentes 8 ferramentas especializadas (operações de ficheiro, pesquisa, análise de código) e avalia-os em comprimentos de contexto que variam de 10K a 1M de tokens, permitindo uma avaliação precisa do desempenho em contexto longo. Através da avaliação sistemática dos modelos mais avançados, revelamos várias descobertas-chave: (1) os agentes exibem uma robustez notável em contexto longo; (2) existe um compromisso compreensão-eficiência com correlação negativa, onde uma exploração minuciosa aumenta a compreensão, mas reduz a eficiência; e (3) a eficiência da conversa varia drasticamente entre modelos, com padrões estratégicos de uso de ferramentas a diferenciarem os agentes de alto desempenho. Como o primeiro benchmark para agentes de LLM em contexto longo para engenharia de software, o LoCoBench-Agent estabelece uma base rigorosa para medir as capacidades dos agentes, identificar lacunas de desempenho e avançar o desenvolvimento de software autónomo em larga escala.
English
As large language models (LLMs) evolve into sophisticated autonomous agents capable of complex software development tasks, evaluating their real-world capabilities becomes critical. While existing benchmarks like LoCoBench~qiu2025locobench assess long-context code understanding, they focus on single-turn evaluation and cannot capture the multi-turn interactive nature, tool usage patterns, and adaptive reasoning required by real-world coding agents. We introduce LoCoBench-Agent, a comprehensive evaluation framework specifically designed to assess LLM agents in realistic, long-context software engineering workflows. Our framework extends LoCoBench's 8,000 scenarios into interactive agent environments, enabling systematic evaluation of multi-turn conversations, tool usage efficiency, error recovery, and architectural consistency across extended development sessions. We also introduce an evaluation methodology with 9 metrics across comprehension and efficiency dimensions. Our framework provides agents with 8 specialized tools (file operations, search, code analysis) and evaluates them across context lengths ranging from 10K to 1M tokens, enabling precise assessment of long-context performance. Through systematic evaluation of state-of-the-art models, we reveal several key findings: (1) agents exhibit remarkable long-context robustness; (2) comprehension-efficiency trade-off exists with negative correlation, where thorough exploration increases comprehension but reduces efficiency; and (3) conversation efficiency varies dramatically across models, with strategic tool usage patterns differentiating high-performing agents. As the first long-context LLM agent benchmark for software engineering, LoCoBench-Agent establishes a rigorous foundation for measuring agent capabilities, identifying performance gaps, and advancing autonomous software development at scale.