ChatPaper.aiChatPaper

LoCoBench: Un Benchmark per Modelli Linguistici di Grande Dimensione con Contesti Lunghi nell'Ingegneria del Software Complessa

LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

September 11, 2025
Autori: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI

Abstract

L'emergenza di modelli linguistici a contesto lungo con finestre contestuali che si estendono a milioni di token ha creato nuove opportunità per una sofisticata comprensione del codice e la valutazione dello sviluppo software. Proponiamo LoCoBench, un benchmark completo progettato specificamente per valutare i modelli linguistici a contesto lungo (LLM) in scenari realistici e complessi di sviluppo software. A differenza dei benchmark di valutazione del codice esistenti che si concentrano sul completamento di singole funzioni o su compiti a contesto breve, LoCoBench affronta il gap critico di valutazione per le capacità a contesto lungo che richiedono la comprensione di interi codebase, il ragionamento attraverso più file e il mantenimento della coerenza architetturale in sistemi software su larga scala. Il nostro benchmark fornisce 8.000 scenari di valutazione generati sistematicamente in 10 linguaggi di programmazione, con lunghezze contestuali che vanno da 10K a 1M token, una variazione di 100x che consente una valutazione precisa del degrado delle prestazioni a contesto lungo in contesti realistici di sviluppo software. LoCoBench introduce 8 categorie di compiti che catturano capacità essenziali a contesto lungo: comprensione architetturale, refactoring cross-file, sviluppo multi-sessione, investigazione di bug, implementazione di funzionalità, comprensione del codice, test di integrazione e analisi della sicurezza. Attraverso una pipeline a 5 fasi, creiamo scenari diversificati e di alta qualità che mettono alla prova i modelli linguistici nel ragionare su codebase complessi su una scala senza precedenti. Introduciamo un framework di valutazione completo con 17 metriche suddivise in 4 dimensioni, inclusi 8 nuovi indicatori di valutazione, combinati in un punteggio LoCoBench (LCBS). La nostra valutazione dei modelli a contesto lungo all'avanguardia rivela significativi gap di prestazione, dimostrando che la comprensione a contesto lungo nello sviluppo software complesso rappresenta una sfida significativa e irrisolta che richiede maggiore attenzione. LoCoBench è disponibile all'indirizzo: https://github.com/SalesforceAIResearch/LoCoBench.
English
The emergence of long-context language models with context windows extending to millions of tokens has created new opportunities for sophisticated code understanding and software development evaluation. We propose LoCoBench, a comprehensive benchmark specifically designed to evaluate long-context LLMs in realistic, complex software development scenarios. Unlike existing code evaluation benchmarks that focus on single-function completion or short-context tasks, LoCoBench addresses the critical evaluation gap for long-context capabilities that require understanding entire codebases, reasoning across multiple files, and maintaining architectural consistency across large-scale software systems. Our benchmark provides 8,000 evaluation scenarios systematically generated across 10 programming languages, with context lengths spanning 10K to 1M tokens, a 100x variation that enables precise assessment of long-context performance degradation in realistic software development settings. LoCoBench introduces 8 task categories that capture essential long-context capabilities: architectural understanding, cross-file refactoring, multi-session development, bug investigation, feature implementation, code comprehension, integration testing, and security analysis. Through a 5-phase pipeline, we create diverse, high-quality scenarios that challenge LLMs to reason about complex codebases at unprecedented scale. We introduce a comprehensive evaluation framework with 17 metrics across 4 dimensions, including 8 new evaluation metrics, combined in a LoCoBench Score (LCBS). Our evaluation of state-of-the-art long-context models reveals substantial performance gaps, demonstrating that long-context understanding in complex software development represents a significant unsolved challenge that demands more attention. LoCoBench is released at: https://github.com/SalesforceAIResearch/LoCoBench.
PDF72September 12, 2025