ChatPaper.aiChatPaper

LoCoBench : Un Benchmark pour les Modèles de Langage à Grand Contexte dans l'Ingénierie Logicielle Complexe

LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

September 11, 2025
papers.authors: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI

papers.abstract

L'émergence de modèles de langage à contexte étendu, avec des fenêtres de contexte atteignant des millions de tokens, a ouvert de nouvelles opportunités pour une compréhension sophistiquée du code et l'évaluation du développement logiciel. Nous proposons LoCoBench, un benchmark complet spécialement conçu pour évaluer les modèles de langage à contexte étendu (LLMs) dans des scénarios réalistes et complexes de développement logiciel. Contrairement aux benchmarks d'évaluation de code existants qui se concentrent sur la complétion de fonctions individuelles ou des tâches à contexte court, LoCoBench comble une lacune critique en évaluant les capacités à contexte étendu, nécessitant la compréhension de bases de code entières, le raisonnement à travers plusieurs fichiers et le maintien de la cohérence architecturale dans des systèmes logiciels à grande échelle. Notre benchmark propose 8 000 scénarios d'évaluation générés systématiquement dans 10 langages de programmation, avec des longueurs de contexte variant de 10K à 1M tokens, une variation de 100x permettant une évaluation précise de la dégradation des performances en contexte étendu dans des environnements réalistes de développement logiciel. LoCoBench introduit 8 catégories de tâches qui capturent les capacités essentielles en contexte étendu : compréhension architecturale, refactorisation inter-fichiers, développement multi-sessions, investigation de bugs, implémentation de fonctionnalités, compréhension du code, tests d'intégration et analyse de sécurité. Grâce à un pipeline en 5 phases, nous créons des scénarios diversifiés et de haute qualité qui mettent les LLMs au défi de raisonner sur des bases de code complexes à une échelle sans précédent. Nous introduisons un cadre d'évaluation complet avec 17 métriques réparties en 4 dimensions, incluant 8 nouvelles métriques d'évaluation, combinées dans un score LoCoBench (LCBS). Notre évaluation des modèles à contexte étendu de pointe révèle des écarts de performance substantiels, démontrant que la compréhension en contexte étendu dans le développement logiciel complexe représente un défi majeur non résolu qui nécessite plus d'attention. LoCoBench est disponible à l'adresse suivante : https://github.com/SalesforceAIResearch/LoCoBench.
English
The emergence of long-context language models with context windows extending to millions of tokens has created new opportunities for sophisticated code understanding and software development evaluation. We propose LoCoBench, a comprehensive benchmark specifically designed to evaluate long-context LLMs in realistic, complex software development scenarios. Unlike existing code evaluation benchmarks that focus on single-function completion or short-context tasks, LoCoBench addresses the critical evaluation gap for long-context capabilities that require understanding entire codebases, reasoning across multiple files, and maintaining architectural consistency across large-scale software systems. Our benchmark provides 8,000 evaluation scenarios systematically generated across 10 programming languages, with context lengths spanning 10K to 1M tokens, a 100x variation that enables precise assessment of long-context performance degradation in realistic software development settings. LoCoBench introduces 8 task categories that capture essential long-context capabilities: architectural understanding, cross-file refactoring, multi-session development, bug investigation, feature implementation, code comprehension, integration testing, and security analysis. Through a 5-phase pipeline, we create diverse, high-quality scenarios that challenge LLMs to reason about complex codebases at unprecedented scale. We introduce a comprehensive evaluation framework with 17 metrics across 4 dimensions, including 8 new evaluation metrics, combined in a LoCoBench Score (LCBS). Our evaluation of state-of-the-art long-context models reveals substantial performance gaps, demonstrating that long-context understanding in complex software development represents a significant unsolved challenge that demands more attention. LoCoBench is released at: https://github.com/SalesforceAIResearch/LoCoBench.
PDF22September 12, 2025