ChatPaper.aiChatPaper

LoCoBench: Um Benchmark para Modelos de Linguagem de Grande Escala em Contextos Longos na Engenharia de Software Complexa

LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

September 11, 2025
Autores: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI

Resumo

O surgimento de modelos de linguagem de contexto longo, com janelas de contexto estendendo-se a milhões de tokens, criou novas oportunidades para a compreensão sofisticada de código e a avaliação do desenvolvimento de software. Propomos o LoCoBench, um benchmark abrangente projetado especificamente para avaliar LLMs de contexto longo em cenários realistas e complexos de desenvolvimento de software. Diferentemente dos benchmarks de avaliação de código existentes, que se concentram na conclusão de funções únicas ou tarefas de contexto curto, o LoCoBench aborda a lacuna crítica de avaliação para capacidades de contexto longo que exigem a compreensão de bases de código inteiras, o raciocínio entre múltiplos arquivos e a manutenção da consistência arquitetônica em sistemas de software em larga escala. Nosso benchmark oferece 8.000 cenários de avaliação gerados sistematicamente em 10 linguagens de programação, com comprimentos de contexto variando de 10K a 1M de tokens, uma variação de 100x que permite uma avaliação precisa da degradação de desempenho em contextos longos em cenários realistas de desenvolvimento de software. O LoCoBench introduz 8 categorias de tarefas que capturam capacidades essenciais de contexto longo: compreensão arquitetônica, refatoração entre arquivos, desenvolvimento multi-sessão, investigação de bugs, implementação de funcionalidades, compreensão de código, testes de integração e análise de segurança. Por meio de um pipeline de 5 fases, criamos cenários diversos e de alta qualidade que desafiam os LLMs a raciocinar sobre bases de código complexas em uma escala sem precedentes. Introduzimos um framework de avaliação abrangente com 17 métricas em 4 dimensões, incluindo 8 novas métricas de avaliação, combinadas em um LoCoBench Score (LCBS). Nossa avaliação dos modelos de contexto longo state-of-the-art revela lacunas substanciais de desempenho, demonstrando que a compreensão de contexto longo no desenvolvimento de software complexo representa um desafio significativo não resolvido que demanda mais atenção. O LoCoBench está disponível em: https://github.com/SalesforceAIResearch/LoCoBench.
English
The emergence of long-context language models with context windows extending to millions of tokens has created new opportunities for sophisticated code understanding and software development evaluation. We propose LoCoBench, a comprehensive benchmark specifically designed to evaluate long-context LLMs in realistic, complex software development scenarios. Unlike existing code evaluation benchmarks that focus on single-function completion or short-context tasks, LoCoBench addresses the critical evaluation gap for long-context capabilities that require understanding entire codebases, reasoning across multiple files, and maintaining architectural consistency across large-scale software systems. Our benchmark provides 8,000 evaluation scenarios systematically generated across 10 programming languages, with context lengths spanning 10K to 1M tokens, a 100x variation that enables precise assessment of long-context performance degradation in realistic software development settings. LoCoBench introduces 8 task categories that capture essential long-context capabilities: architectural understanding, cross-file refactoring, multi-session development, bug investigation, feature implementation, code comprehension, integration testing, and security analysis. Through a 5-phase pipeline, we create diverse, high-quality scenarios that challenge LLMs to reason about complex codebases at unprecedented scale. We introduce a comprehensive evaluation framework with 17 metrics across 4 dimensions, including 8 new evaluation metrics, combined in a LoCoBench Score (LCBS). Our evaluation of state-of-the-art long-context models reveals substantial performance gaps, demonstrating that long-context understanding in complex software development represents a significant unsolved challenge that demands more attention. LoCoBench is released at: https://github.com/SalesforceAIResearch/LoCoBench.
PDF32September 12, 2025