ChatPaper.aiChatPaper

LoCoBench-Agent: Un Punto de Referencia Interactivo para Agentes LLM en Ingeniería de Software de Contexto Largo

LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

November 17, 2025
Autores: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Roshan Ram, Akshara Prabhakar, Tulika Awalgaonkar, Zixiang Chen, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI

Resumen

A medida que los modelos de lenguaje grande (LLM) evolucionan hacia agentes autónomos sofisticados capaces de realizar tareas complejas de desarrollo de software, evaluar sus capacidades en escenarios reales se vuelve crítico. Si bien benchmarks existentes como LoCoBench~qiu2025locobench evalúan la comprensión de código en contextos largos, se centran en evaluaciones de un solo turno y no pueden capturar la naturaleza interactiva multiturno, los patrones de uso de herramientas y el razonamiento adaptativo requeridos por los agentes de codificación del mundo real. Presentamos LoCoBench-Agent, un marco de evaluación integral diseñado específicamente para evaluar agentes LLM en flujos de trabajo realistas de ingeniería de software con contexto largo. Nuestro marco extiende los 8.000 escenarios de LoCoBench a entornos interactivos para agentes, permitiendo la evaluación sistemática de conversaciones multiturno, eficiencia en el uso de herramientas, recuperación de errores y consistencia arquitectónica a lo largo de sesiones de desarrollo extendidas. También introducimos una metodología de evaluación con 9 métricas en las dimensiones de comprensión y eficiencia. Nuestro marco proporciona a los agentes 8 herramientas especializadas (operaciones de archivo, búsqueda, análisis de código) y los evalúa en longitudes de contexto que van desde 10K hasta 1 millón de tokens, permitiendo una evaluación precisa del rendimiento en contextos largos. Mediante la evaluación sistemática de modelos de vanguardia, revelamos varios hallazgos clave: (1) los agentes exhiben una notable robustez en contextos largos; (2) existe una compensación entre comprensión y eficiencia con correlación negativa, donde una exploración exhaustiva aumenta la comprensión pero reduce la eficiencia; y (3) la eficiencia conversacional varía drásticamente entre modelos, con patrones estratégicos de uso de herramientas que diferencian a los agentes de alto rendimiento. Como el primer benchmark para agentes LLM de contexto largo en ingeniería de software, LoCoBench-Agent establece una base rigurosa para medir las capacidades de los agentes, identificar brechas de rendimiento y avanzar en el desarrollo autónomo de software a gran escala.
English
As large language models (LLMs) evolve into sophisticated autonomous agents capable of complex software development tasks, evaluating their real-world capabilities becomes critical. While existing benchmarks like LoCoBench~qiu2025locobench assess long-context code understanding, they focus on single-turn evaluation and cannot capture the multi-turn interactive nature, tool usage patterns, and adaptive reasoning required by real-world coding agents. We introduce LoCoBench-Agent, a comprehensive evaluation framework specifically designed to assess LLM agents in realistic, long-context software engineering workflows. Our framework extends LoCoBench's 8,000 scenarios into interactive agent environments, enabling systematic evaluation of multi-turn conversations, tool usage efficiency, error recovery, and architectural consistency across extended development sessions. We also introduce an evaluation methodology with 9 metrics across comprehension and efficiency dimensions. Our framework provides agents with 8 specialized tools (file operations, search, code analysis) and evaluates them across context lengths ranging from 10K to 1M tokens, enabling precise assessment of long-context performance. Through systematic evaluation of state-of-the-art models, we reveal several key findings: (1) agents exhibit remarkable long-context robustness; (2) comprehension-efficiency trade-off exists with negative correlation, where thorough exploration increases comprehension but reduces efficiency; and (3) conversation efficiency varies dramatically across models, with strategic tool usage patterns differentiating high-performing agents. As the first long-context LLM agent benchmark for software engineering, LoCoBench-Agent establishes a rigorous foundation for measuring agent capabilities, identifying performance gaps, and advancing autonomous software development at scale.
PDF22December 1, 2025