LoCoBench: Бенчмарк для языковых моделей с длинным контекстом в сложных задачах программной инженерии
LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering
September 11, 2025
Авторы: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Аннотация
Появление языковых моделей с длинным контекстом, способных обрабатывать миллионы токенов, открыло новые возможности для сложного анализа кода и оценки разработки программного обеспечения. Мы представляем LoCoBench — всеобъемлющий бенчмарк, специально разработанный для оценки языковых моделей с длинным контекстом в реалистичных и сложных сценариях разработки программного обеспечения. В отличие от существующих бенчмарков для оценки кода, которые сосредоточены на завершении отдельных функций или задачах с коротким контекстом, LoCoBench устраняет критический пробел в оценке способностей, требующих понимания целых кодовых баз, рассуждений на основе нескольких файлов и поддержания архитектурной согласованности в крупномасштабных программных системах. Наш бенчмарк включает 8 000 сценариев оценки, систематически сгенерированных для 10 языков программирования, с длиной контекста от 10K до 1M токенов, что обеспечивает 100-кратное варьирование и позволяет точно оценить снижение производительности при работе с длинным контекстом в реалистичных условиях разработки. LoCoBench вводит 8 категорий задач, охватывающих ключевые способности работы с длинным контекстом: понимание архитектуры, рефакторинг между файлами, разработка в несколько сессий, исследование ошибок, реализация функций, понимание кода, интеграционное тестирование и анализ безопасности. С помощью 5-этапного конвейера мы создаем разнообразные и качественные сценарии, которые ставят перед языковыми моделями задачи рассуждения о сложных кодовых базах в беспрецедентных масштабах. Мы представляем всеобъемлющую систему оценки с 17 метриками, охватывающими 4 измерения, включая 8 новых метрик, объединенных в LoCoBench Score (LCBS). Наша оценка современных моделей с длинным контекстом выявила значительные пробелы в производительности, демонстрируя, что понимание длинного контекста в сложной разработке программного обеспечения остается серьезной нерешенной задачей, требующей большего внимания. LoCoBench доступен по адресу: https://github.com/SalesforceAIResearch/LoCoBench.
English
The emergence of long-context language models with context windows extending
to millions of tokens has created new opportunities for sophisticated code
understanding and software development evaluation. We propose LoCoBench, a
comprehensive benchmark specifically designed to evaluate long-context LLMs in
realistic, complex software development scenarios. Unlike existing code
evaluation benchmarks that focus on single-function completion or short-context
tasks, LoCoBench addresses the critical evaluation gap for long-context
capabilities that require understanding entire codebases, reasoning across
multiple files, and maintaining architectural consistency across large-scale
software systems. Our benchmark provides 8,000 evaluation scenarios
systematically generated across 10 programming languages, with context lengths
spanning 10K to 1M tokens, a 100x variation that enables precise assessment of
long-context performance degradation in realistic software development
settings. LoCoBench introduces 8 task categories that capture essential
long-context capabilities: architectural understanding, cross-file refactoring,
multi-session development, bug investigation, feature implementation, code
comprehension, integration testing, and security analysis. Through a 5-phase
pipeline, we create diverse, high-quality scenarios that challenge LLMs to
reason about complex codebases at unprecedented scale. We introduce a
comprehensive evaluation framework with 17 metrics across 4 dimensions,
including 8 new evaluation metrics, combined in a LoCoBench Score (LCBS). Our
evaluation of state-of-the-art long-context models reveals substantial
performance gaps, demonstrating that long-context understanding in complex
software development represents a significant unsolved challenge that demands
more attention. LoCoBench is released at:
https://github.com/SalesforceAIResearch/LoCoBench.