LoCoBench: Un punto de referencia para modelos de lenguaje de gran escala en contextos extensos dentro de la ingeniería de software compleja
LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering
September 11, 2025
Autores: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Resumen
El surgimiento de modelos de lenguaje de contexto largo, con ventanas de contexto que se extienden a millones de tokens, ha creado nuevas oportunidades para la comprensión sofisticada de código y la evaluación del desarrollo de software. Proponemos LoCoBench, un punto de referencia integral diseñado específicamente para evaluar modelos de lenguaje de contexto largo (LLMs) en escenarios realistas y complejos de desarrollo de software. A diferencia de los puntos de referencia existentes para la evaluación de código, que se centran en la completación de funciones individuales o tareas de contexto corto, LoCoBench aborda la brecha crítica en la evaluación de capacidades de contexto largo que requieren la comprensión de bases de código completas, el razonamiento a través de múltiples archivos y el mantenimiento de la consistencia arquitectónica en sistemas de software a gran escala. Nuestro punto de referencia ofrece 8,000 escenarios de evaluación generados sistemáticamente en 10 lenguajes de programación, con longitudes de contexto que van desde 10K hasta 1M tokens, una variación de 100x que permite una evaluación precisa de la degradación del rendimiento en contextos largos en entornos realistas de desarrollo de software. LoCoBench introduce 8 categorías de tareas que capturan capacidades esenciales de contexto largo: comprensión arquitectónica, refactorización entre archivos, desarrollo multi-sesión, investigación de errores, implementación de características, comprensión de código, pruebas de integración y análisis de seguridad. A través de una canalización de 5 fases, creamos escenarios diversos y de alta calidad que desafían a los LLMs a razonar sobre bases de código complejas a una escala sin precedentes. Introducimos un marco de evaluación integral con 17 métricas en 4 dimensiones, incluyendo 8 nuevas métricas de evaluación, combinadas en una Puntuación LoCoBench (LCBS). Nuestra evaluación de modelos de contexto largo de última generación revela brechas sustanciales en el rendimiento, demostrando que la comprensión de contexto largo en el desarrollo de software complejo representa un desafío significativo sin resolver que requiere más atención. LoCoBench está disponible en: https://github.com/SalesforceAIResearch/LoCoBench.
English
The emergence of long-context language models with context windows extending
to millions of tokens has created new opportunities for sophisticated code
understanding and software development evaluation. We propose LoCoBench, a
comprehensive benchmark specifically designed to evaluate long-context LLMs in
realistic, complex software development scenarios. Unlike existing code
evaluation benchmarks that focus on single-function completion or short-context
tasks, LoCoBench addresses the critical evaluation gap for long-context
capabilities that require understanding entire codebases, reasoning across
multiple files, and maintaining architectural consistency across large-scale
software systems. Our benchmark provides 8,000 evaluation scenarios
systematically generated across 10 programming languages, with context lengths
spanning 10K to 1M tokens, a 100x variation that enables precise assessment of
long-context performance degradation in realistic software development
settings. LoCoBench introduces 8 task categories that capture essential
long-context capabilities: architectural understanding, cross-file refactoring,
multi-session development, bug investigation, feature implementation, code
comprehension, integration testing, and security analysis. Through a 5-phase
pipeline, we create diverse, high-quality scenarios that challenge LLMs to
reason about complex codebases at unprecedented scale. We introduce a
comprehensive evaluation framework with 17 metrics across 4 dimensions,
including 8 new evaluation metrics, combined in a LoCoBench Score (LCBS). Our
evaluation of state-of-the-art long-context models reveals substantial
performance gaps, demonstrating that long-context understanding in complex
software development represents a significant unsolved challenge that demands
more attention. LoCoBench is released at:
https://github.com/SalesforceAIResearch/LoCoBench.