LoCoBench: Un punto de referencia para modelos de lenguaje de gran escala en contextos extensos dentro de la ingeniería de software compleja

Resumen

El surgimiento de modelos de lenguaje de contexto largo, con ventanas de contexto que se extienden a millones de tokens, ha creado nuevas oportunidades para la comprensión sofisticada de código y la evaluación del desarrollo de software. Proponemos LoCoBench, un punto de referencia integral diseñado específicamente para evaluar modelos de lenguaje de contexto largo (LLMs) en escenarios realistas y complejos de desarrollo de software. A diferencia de los puntos de referencia existentes para la evaluación de código, que se centran en la completación de funciones individuales o tareas de contexto corto, LoCoBench aborda la brecha crítica en la evaluación de capacidades de contexto largo que requieren la comprensión de bases de código completas, el razonamiento a través de múltiples archivos y el mantenimiento de la consistencia arquitectónica en sistemas de software a gran escala. Nuestro punto de referencia ofrece 8,000 escenarios de evaluación generados sistemáticamente en 10 lenguajes de programación, con longitudes de contexto que van desde 10K hasta 1M tokens, una variación de 100x que permite una evaluación precisa de la degradación del rendimiento en contextos largos en entornos realistas de desarrollo de software. LoCoBench introduce 8 categorías de tareas que capturan capacidades esenciales de contexto largo: comprensión arquitectónica, refactorización entre archivos, desarrollo multi-sesión, investigación de errores, implementación de características, comprensión de código, pruebas de integración y análisis de seguridad. A través de una canalización de 5 fases, creamos escenarios diversos y de alta calidad que desafían a los LLMs a razonar sobre bases de código complejas a una escala sin precedentes. Introducimos un marco de evaluación integral con 17 métricas en 4 dimensiones, incluyendo 8 nuevas métricas de evaluación, combinadas en una Puntuación LoCoBench (LCBS). Nuestra evaluación de modelos de contexto largo de última generación revela brechas sustanciales en el rendimiento, demostrando que la comprensión de contexto largo en el desarrollo de software complejo representa un desafío significativo sin resolver que requiere más atención. LoCoBench está disponible en: https://github.com/SalesforceAIResearch/LoCoBench.

English

The emergence of long-context language models with context windows extending to millions of tokens has created new opportunities for sophisticated code understanding and software development evaluation. We propose LoCoBench, a comprehensive benchmark specifically designed to evaluate long-context LLMs in realistic, complex software development scenarios. Unlike existing code evaluation benchmarks that focus on single-function completion or short-context tasks, LoCoBench addresses the critical evaluation gap for long-context capabilities that require understanding entire codebases, reasoning across multiple files, and maintaining architectural consistency across large-scale software systems. Our benchmark provides 8,000 evaluation scenarios systematically generated across 10 programming languages, with context lengths spanning 10K to 1M tokens, a 100x variation that enables precise assessment of long-context performance degradation in realistic software development settings. LoCoBench introduces 8 task categories that capture essential long-context capabilities: architectural understanding, cross-file refactoring, multi-session development, bug investigation, feature implementation, code comprehension, integration testing, and security analysis. Through a 5-phase pipeline, we create diverse, high-quality scenarios that challenge LLMs to reason about complex codebases at unprecedented scale. We introduce a comprehensive evaluation framework with 17 metrics across 4 dimensions, including 8 new evaluation metrics, combined in a LoCoBench Score (LCBS). Our evaluation of state-of-the-art long-context models reveals substantial performance gaps, demonstrating that long-context understanding in complex software development represents a significant unsolved challenge that demands more attention. LoCoBench is released at: https://github.com/SalesforceAIResearch/LoCoBench.

LoCoBench: Un punto de referencia para modelos de lenguaje de gran escala en contextos extensos dentro de la ingeniería de software compleja

LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

Resumen

Support