LoCoBench-Agent: Ein interaktiver Benchmark für LLM-Agenten in der Softwareentwicklung mit langen Kontexten
LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering
November 17, 2025
papers.authors: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Roshan Ram, Akshara Prabhakar, Tulika Awalgaonkar, Zixiang Chen, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
papers.abstract
Da sich große Sprachmodelle (LLMs) zu hochentwickelten autonomen Agenten entwickeln, die komplexe Softwareentwicklungsaufgaben bewältigen können, wird die Bewertung ihrer realen Fähigkeiten entscheidend. Bestehende Benchmarks wie LoCoBench~qiu2025locobench bewerten zwar das Code-Verständnis in langen Kontexten, konzentrieren sich jedoch auf Einzelabfragen und können die mehrschrittige Interaktivität, Werkzeugnutzungsmuster und das adaptive Denken, die von realen Code-Agenten benötigt werden, nicht erfassen. Wir stellen LoCoBench-Agent vor, einen umfassenden Bewertungsrahmen, der speziell zur Evaluierung von LLM-Agenten in realistischen, langkontextigen Softwareentwicklungsworkflows entwickelt wurde. Unser Framework erweitert die 8.000 Szenarien von LoCoBench zu interaktiven Agentenumgebungen und ermöglicht eine systematische Bewertung von Mehrfachdialogen, Werkzeugnutzungseffizienz, Fehlerbehebung und Architekturkonsistenz über längere Entwicklungssitzungen hinweg. Wir führen zudem eine Bewertungsmethodik mit 9 Metriken in den Dimensionen Verständnis und Effizienz ein. Unser Framework stattet Agenten mit 8 spezialisierten Werkzeugen (Dateioperationen, Suche, Codeanalyse) aus und evaluiert sie über Kontextlängen von 10.000 bis 1 Million Tokens, was eine präzise Bewertung der Langkontextleistung ermöglicht. Durch systematische Evaluierung modernster Modelle zeigen wir mehrere zentrale Erkenntnisse: (1) Agenten weisen eine bemerkenswerte Robustheit in langen Kontexten auf; (2) es besteht ein Zielkonflikt zwischen Verständnis und Effizienz mit negativer Korrelation, bei dem gründliche Exploration das Verständnis erhöht, aber die Effizienz verringert; und (3) die Konversationseffizienz variiert stark zwischen den Modellen, wobei strategische Werkzeugnutzungsmuster hochperformante Agenten unterscheiden. Als erster Langkontext-LLM-Agenten-Benchmark für Software Engineering schafft LoCoBench-Agent eine rigorose Grundlage zur Messung von Agentenfähigkeiten, Identifizierung von Leistungslücken und Weiterentwicklung autonomer Softwareentwicklung im großen Maßstab.
English
As large language models (LLMs) evolve into sophisticated autonomous agents capable of complex software development tasks, evaluating their real-world capabilities becomes critical. While existing benchmarks like LoCoBench~qiu2025locobench assess long-context code understanding, they focus on single-turn evaluation and cannot capture the multi-turn interactive nature, tool usage patterns, and adaptive reasoning required by real-world coding agents. We introduce LoCoBench-Agent, a comprehensive evaluation framework specifically designed to assess LLM agents in realistic, long-context software engineering workflows. Our framework extends LoCoBench's 8,000 scenarios into interactive agent environments, enabling systematic evaluation of multi-turn conversations, tool usage efficiency, error recovery, and architectural consistency across extended development sessions. We also introduce an evaluation methodology with 9 metrics across comprehension and efficiency dimensions. Our framework provides agents with 8 specialized tools (file operations, search, code analysis) and evaluates them across context lengths ranging from 10K to 1M tokens, enabling precise assessment of long-context performance. Through systematic evaluation of state-of-the-art models, we reveal several key findings: (1) agents exhibit remarkable long-context robustness; (2) comprehension-efficiency trade-off exists with negative correlation, where thorough exploration increases comprehension but reduces efficiency; and (3) conversation efficiency varies dramatically across models, with strategic tool usage patterns differentiating high-performing agents. As the first long-context LLM agent benchmark for software engineering, LoCoBench-Agent establishes a rigorous foundation for measuring agent capabilities, identifying performance gaps, and advancing autonomous software development at scale.