LoCoBench: Um Benchmark para Modelos de Linguagem de Grande Escala em Contextos Longos na Engenharia de Software Complexa
LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering
September 11, 2025
Autores: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Resumo
O surgimento de modelos de linguagem de contexto longo, com janelas de contexto estendendo-se a milhões de tokens, criou novas oportunidades para a compreensão sofisticada de código e a avaliação do desenvolvimento de software. Propomos o LoCoBench, um benchmark abrangente projetado especificamente para avaliar LLMs de contexto longo em cenários realistas e complexos de desenvolvimento de software. Diferentemente dos benchmarks de avaliação de código existentes, que se concentram na conclusão de funções únicas ou tarefas de contexto curto, o LoCoBench aborda a lacuna crítica de avaliação para capacidades de contexto longo que exigem a compreensão de bases de código inteiras, o raciocínio entre múltiplos arquivos e a manutenção da consistência arquitetônica em sistemas de software em larga escala. Nosso benchmark oferece 8.000 cenários de avaliação gerados sistematicamente em 10 linguagens de programação, com comprimentos de contexto variando de 10K a 1M de tokens, uma variação de 100x que permite uma avaliação precisa da degradação de desempenho em contextos longos em cenários realistas de desenvolvimento de software. O LoCoBench introduz 8 categorias de tarefas que capturam capacidades essenciais de contexto longo: compreensão arquitetônica, refatoração entre arquivos, desenvolvimento multi-sessão, investigação de bugs, implementação de funcionalidades, compreensão de código, testes de integração e análise de segurança. Por meio de um pipeline de 5 fases, criamos cenários diversos e de alta qualidade que desafiam os LLMs a raciocinar sobre bases de código complexas em uma escala sem precedentes. Introduzimos um framework de avaliação abrangente com 17 métricas em 4 dimensões, incluindo 8 novas métricas de avaliação, combinadas em um LoCoBench Score (LCBS). Nossa avaliação dos modelos de contexto longo state-of-the-art revela lacunas substanciais de desempenho, demonstrando que a compreensão de contexto longo no desenvolvimento de software complexo representa um desafio significativo não resolvido que demanda mais atenção. O LoCoBench está disponível em: https://github.com/SalesforceAIResearch/LoCoBench.
English
The emergence of long-context language models with context windows extending
to millions of tokens has created new opportunities for sophisticated code
understanding and software development evaluation. We propose LoCoBench, a
comprehensive benchmark specifically designed to evaluate long-context LLMs in
realistic, complex software development scenarios. Unlike existing code
evaluation benchmarks that focus on single-function completion or short-context
tasks, LoCoBench addresses the critical evaluation gap for long-context
capabilities that require understanding entire codebases, reasoning across
multiple files, and maintaining architectural consistency across large-scale
software systems. Our benchmark provides 8,000 evaluation scenarios
systematically generated across 10 programming languages, with context lengths
spanning 10K to 1M tokens, a 100x variation that enables precise assessment of
long-context performance degradation in realistic software development
settings. LoCoBench introduces 8 task categories that capture essential
long-context capabilities: architectural understanding, cross-file refactoring,
multi-session development, bug investigation, feature implementation, code
comprehension, integration testing, and security analysis. Through a 5-phase
pipeline, we create diverse, high-quality scenarios that challenge LLMs to
reason about complex codebases at unprecedented scale. We introduce a
comprehensive evaluation framework with 17 metrics across 4 dimensions,
including 8 new evaluation metrics, combined in a LoCoBench Score (LCBS). Our
evaluation of state-of-the-art long-context models reveals substantial
performance gaps, demonstrating that long-context understanding in complex
software development represents a significant unsolved challenge that demands
more attention. LoCoBench is released at:
https://github.com/SalesforceAIResearch/LoCoBench.