ChatPaper.aiChatPaper

LoCoBench: Бенчмарк для языковых моделей с длинным контекстом в сложных задачах программной инженерии

LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

September 11, 2025
Авторы: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI

Аннотация

Появление языковых моделей с длинным контекстом, способных обрабатывать миллионы токенов, открыло новые возможности для сложного анализа кода и оценки разработки программного обеспечения. Мы представляем LoCoBench — всеобъемлющий бенчмарк, специально разработанный для оценки языковых моделей с длинным контекстом в реалистичных и сложных сценариях разработки программного обеспечения. В отличие от существующих бенчмарков для оценки кода, которые сосредоточены на завершении отдельных функций или задачах с коротким контекстом, LoCoBench устраняет критический пробел в оценке способностей, требующих понимания целых кодовых баз, рассуждений на основе нескольких файлов и поддержания архитектурной согласованности в крупномасштабных программных системах. Наш бенчмарк включает 8 000 сценариев оценки, систематически сгенерированных для 10 языков программирования, с длиной контекста от 10K до 1M токенов, что обеспечивает 100-кратное варьирование и позволяет точно оценить снижение производительности при работе с длинным контекстом в реалистичных условиях разработки. LoCoBench вводит 8 категорий задач, охватывающих ключевые способности работы с длинным контекстом: понимание архитектуры, рефакторинг между файлами, разработка в несколько сессий, исследование ошибок, реализация функций, понимание кода, интеграционное тестирование и анализ безопасности. С помощью 5-этапного конвейера мы создаем разнообразные и качественные сценарии, которые ставят перед языковыми моделями задачи рассуждения о сложных кодовых базах в беспрецедентных масштабах. Мы представляем всеобъемлющую систему оценки с 17 метриками, охватывающими 4 измерения, включая 8 новых метрик, объединенных в LoCoBench Score (LCBS). Наша оценка современных моделей с длинным контекстом выявила значительные пробелы в производительности, демонстрируя, что понимание длинного контекста в сложной разработке программного обеспечения остается серьезной нерешенной задачей, требующей большего внимания. LoCoBench доступен по адресу: https://github.com/SalesforceAIResearch/LoCoBench.
English
The emergence of long-context language models with context windows extending to millions of tokens has created new opportunities for sophisticated code understanding and software development evaluation. We propose LoCoBench, a comprehensive benchmark specifically designed to evaluate long-context LLMs in realistic, complex software development scenarios. Unlike existing code evaluation benchmarks that focus on single-function completion or short-context tasks, LoCoBench addresses the critical evaluation gap for long-context capabilities that require understanding entire codebases, reasoning across multiple files, and maintaining architectural consistency across large-scale software systems. Our benchmark provides 8,000 evaluation scenarios systematically generated across 10 programming languages, with context lengths spanning 10K to 1M tokens, a 100x variation that enables precise assessment of long-context performance degradation in realistic software development settings. LoCoBench introduces 8 task categories that capture essential long-context capabilities: architectural understanding, cross-file refactoring, multi-session development, bug investigation, feature implementation, code comprehension, integration testing, and security analysis. Through a 5-phase pipeline, we create diverse, high-quality scenarios that challenge LLMs to reason about complex codebases at unprecedented scale. We introduce a comprehensive evaluation framework with 17 metrics across 4 dimensions, including 8 new evaluation metrics, combined in a LoCoBench Score (LCBS). Our evaluation of state-of-the-art long-context models reveals substantial performance gaps, demonstrating that long-context understanding in complex software development represents a significant unsolved challenge that demands more attention. LoCoBench is released at: https://github.com/SalesforceAIResearch/LoCoBench.
PDF22September 12, 2025