ChatPaper.aiChatPaper

LoCoBench-Agent: Een Interactieve Benchmark voor LLM-Agenten in Software-engineering met Lange Contexten

LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

November 17, 2025
Auteurs: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Roshan Ram, Akshara Prabhakar, Tulika Awalgaonkar, Zixiang Chen, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI

Samenvatting

Naarmate grote taalmodellen (LLM's) evolueren tot geavanceerde autonome agents die complexe softwareontwikkelingstaken kunnen uitvoeren, wordt het evalueren van hun real-world capaciteiten cruciaal. Hoewel bestaande benchmarks zoals LoCoBench~qiu2025locobench het begrip van code in lange contexten beoordelen, richten zij zich op single-turn evaluatie en kunnen zij de multi-turn interactieve aard, toolgebruikspatronen en adaptieve redeneervaardigheden die door real-world coderingsagents worden vereist, niet vastleggen. Wij introduceren LoCoBench-Agent, een uitgebreid evaluatieraamwerk specifiek ontworpen om LLM-agents te beoordelen in realistische, lange-context software-engineering workflows. Ons raamwerk breidt de 8.000 scenario's van LoCoBench uit naar interactieve agent-omgevingen, waardoor systematische evaluatie mogelijk wordt van multi-turn gesprekken, toolgebruiksefficiëntie, foutherstel en architectuurconsistentie tijdens uitgebreide ontwikkelsessies. Wij introduceren ook een evaluatiemethodologie met 9 metrieken over begrips- en efficiëntiedimensies. Ons raamwerk voorziet agents van 8 gespecialiseerde tools (bestandsoperaties, zoeken, code-analyse) en evalueert ze over contextlengtes variërend van 10K tot 1M tokens, waardoor een precieze beoordeling van lange-context prestaties mogelijk wordt. Door systematische evaluatie van state-of-the-art modellen onthullen wij verschillende belangrijke bevindingen: (1) agents vertonen opmerkelijke lange-context robuustheid; (2) er bestaat een trade-off tussen begrip en efficiëntie met een negatieve correlatie, waarbij grondige exploratie het begrip verhoogt maar de efficiëntie vermindert; en (3) gespreksefficiëntie varieert aanzienlijk tussen modellen, waarbij strategische toolgebruikspatronen hoogpresterende agents onderscheiden. Als eerste lange-context LLM-agent benchmark voor software-engineering legt LoCoBench-Agent een rigoureuze basis voor het meten van agentcapaciteiten, het identificeren van prestatiekloofjes en het bevorderen van autonome softwareontwikkeling op grote schaal.
English
As large language models (LLMs) evolve into sophisticated autonomous agents capable of complex software development tasks, evaluating their real-world capabilities becomes critical. While existing benchmarks like LoCoBench~qiu2025locobench assess long-context code understanding, they focus on single-turn evaluation and cannot capture the multi-turn interactive nature, tool usage patterns, and adaptive reasoning required by real-world coding agents. We introduce LoCoBench-Agent, a comprehensive evaluation framework specifically designed to assess LLM agents in realistic, long-context software engineering workflows. Our framework extends LoCoBench's 8,000 scenarios into interactive agent environments, enabling systematic evaluation of multi-turn conversations, tool usage efficiency, error recovery, and architectural consistency across extended development sessions. We also introduce an evaluation methodology with 9 metrics across comprehension and efficiency dimensions. Our framework provides agents with 8 specialized tools (file operations, search, code analysis) and evaluates them across context lengths ranging from 10K to 1M tokens, enabling precise assessment of long-context performance. Through systematic evaluation of state-of-the-art models, we reveal several key findings: (1) agents exhibit remarkable long-context robustness; (2) comprehension-efficiency trade-off exists with negative correlation, where thorough exploration increases comprehension but reduces efficiency; and (3) conversation efficiency varies dramatically across models, with strategic tool usage patterns differentiating high-performing agents. As the first long-context LLM agent benchmark for software engineering, LoCoBench-Agent establishes a rigorous foundation for measuring agent capabilities, identifying performance gaps, and advancing autonomous software development at scale.
PDF22December 1, 2025