ChatPaper.aiChatPaper

LoCoBench: Ein Benchmark für Large Language Models mit langem Kontext in komplexer Softwareentwicklung

LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

September 11, 2025
papers.authors: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI

papers.abstract

Das Aufkommen von Sprachmodellen mit langen Kontextfenstern, die sich über Millionen von Tokens erstrecken, hat neue Möglichkeiten für anspruchsvolles Code-Verständnis und die Bewertung von Softwareentwicklung geschaffen. Wir stellen LoCoBench vor, einen umfassenden Benchmark, der speziell entwickelt wurde, um langkontextfähige LLMs (Large Language Models) in realistischen, komplexen Softwareentwicklungsszenarien zu bewerten. Im Gegensatz zu bestehenden Code-Bewertungsbenchmarks, die sich auf die Vervollständigung einzelner Funktionen oder Aufgaben mit kurzem Kontext konzentrieren, adressiert LoCoBench die kritische Lücke in der Bewertung langkontextfähiger Fähigkeiten, die das Verständnis gesamter Codebasen, das Denken über mehrere Dateien hinweg und die Aufrechterhaltung architektonischer Konsistenz in groß angelegten Softwaresystemen erfordern. Unser Benchmark bietet 8.000 Bewertungsszenarien, die systematisch über 10 Programmiersprachen hinweg generiert wurden, mit Kontextlängen von 10K bis 1M Tokens, einer 100-fachen Variation, die eine präzise Bewertung der Leistungsabnahme bei langen Kontexten in realistischen Softwareentwicklungsumgebungen ermöglicht. LoCoBench führt 8 Aufgabenkategorien ein, die wesentliche langkontextfähige Fähigkeiten erfassen: Architekturverständnis, dateiübergreifendes Refactoring, mehrsitzige Entwicklung, Fehleruntersuchung, Funktionsimplementierung, Code-Verständnis, Integrationstests und Sicherheitsanalyse. Durch eine 5-Phasen-Pipeline erstellen wir vielfältige, hochwertige Szenarien, die LLMs dazu herausfordern, über komplexe Codebasen in einem bisher unerreichten Maßstab nachzudenken. Wir stellen ein umfassendes Bewertungsframework mit 17 Metriken über 4 Dimensionen vor, darunter 8 neue Bewertungsmetriken, die in einem LoCoBench Score (LCBS) kombiniert werden. Unsere Bewertung von state-of-the-art langkontextfähigen Modellen zeigt erhebliche Leistungslücken auf und demonstriert, dass das Verständnis langer Kontexte in der komplexen Softwareentwicklung eine bedeutende, ungelöste Herausforderung darstellt, die mehr Aufmerksamkeit erfordert. LoCoBench ist verfügbar unter: https://github.com/SalesforceAIResearch/LoCoBench.
English
The emergence of long-context language models with context windows extending to millions of tokens has created new opportunities for sophisticated code understanding and software development evaluation. We propose LoCoBench, a comprehensive benchmark specifically designed to evaluate long-context LLMs in realistic, complex software development scenarios. Unlike existing code evaluation benchmarks that focus on single-function completion or short-context tasks, LoCoBench addresses the critical evaluation gap for long-context capabilities that require understanding entire codebases, reasoning across multiple files, and maintaining architectural consistency across large-scale software systems. Our benchmark provides 8,000 evaluation scenarios systematically generated across 10 programming languages, with context lengths spanning 10K to 1M tokens, a 100x variation that enables precise assessment of long-context performance degradation in realistic software development settings. LoCoBench introduces 8 task categories that capture essential long-context capabilities: architectural understanding, cross-file refactoring, multi-session development, bug investigation, feature implementation, code comprehension, integration testing, and security analysis. Through a 5-phase pipeline, we create diverse, high-quality scenarios that challenge LLMs to reason about complex codebases at unprecedented scale. We introduce a comprehensive evaluation framework with 17 metrics across 4 dimensions, including 8 new evaluation metrics, combined in a LoCoBench Score (LCBS). Our evaluation of state-of-the-art long-context models reveals substantial performance gaps, demonstrating that long-context understanding in complex software development represents a significant unsolved challenge that demands more attention. LoCoBench is released at: https://github.com/SalesforceAIResearch/LoCoBench.
PDF22September 12, 2025