LoCoBench: 복잡한 소프트웨어 엔지니어링에서의 장문맥 대규모 언어 모델을 위한 벤치마크
LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering
September 11, 2025
저자: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
초록
수백만 토큰에 이르는 긴 컨텍스트 윈도우를 갖춘 장문 컨텍스트 언어 모델의 등장은 정교한 코드 이해와 소프트웨어 개발 평가를 위한 새로운 기회를 창출했습니다. 우리는 현실적이고 복잡한 소프트웨어 개발 시나리오에서 장문 컨텍스트 LLM(Long-Context Language Models)을 평가하기 위해 특별히 설계된 종합 벤치마크인 LoCoBench을 제안합니다. 단일 함수 완성이나 짧은 컨텍스트 작업에 초점을 맞춘 기존의 코드 평가 벤치마크와 달리, LoCoBench은 전체 코드베이스 이해, 여러 파일 간의 추론, 대규모 소프트웨어 시스템 전반의 아키텍처 일관성 유지 등 장문 컨텍스트 능력에 대한 중요한 평가 격차를 해소합니다. 우리의 벤치마크는 10개 프로그래밍 언어에 걸쳐 체계적으로 생성된 8,000개의 평가 시나리오를 제공하며, 컨텍스트 길이는 10K에서 1M 토큰까지 다양하게 설정되어 현실적인 소프트웨어 개발 환경에서 장문 컨텍스트 성능 저하를 정밀하게 평가할 수 있습니다. LoCoBench은 아키텍처 이해, 파일 간 리팩토링, 다중 세션 개발, 버그 조사, 기능 구현, 코드 이해, 통합 테스트, 보안 분석 등 필수적인 장문 컨텍스트 능력을 포착하는 8가지 작업 카테고리를 도입했습니다. 5단계 파이프라인을 통해 우리는 LLM이 전례 없는 규모의 복잡한 코드베이스에 대해 추론하도록 도전하는 다양하고 고품질의 시나리오를 생성합니다. 우리는 4개 차원에 걸친 17개 메트릭, 그중 8개는 새로운 평가 메트릭을 포함한 종합 평가 프레임워크를 소개하며, 이를 LoCoBench 점수(LCBS)로 통합합니다. 최첨단 장문 컨텍스트 모델에 대한 평가 결과, 복잡한 소프트웨어 개발에서의 장문 컨텍스트 이해는 상당한 성능 격차를 보이며, 이는 해결되지 않은 중요한 과제임을 입증합니다. LoCoBench은 https://github.com/SalesforceAIResearch/LoCoBench에서 공개되었습니다.
English
The emergence of long-context language models with context windows extending
to millions of tokens has created new opportunities for sophisticated code
understanding and software development evaluation. We propose LoCoBench, a
comprehensive benchmark specifically designed to evaluate long-context LLMs in
realistic, complex software development scenarios. Unlike existing code
evaluation benchmarks that focus on single-function completion or short-context
tasks, LoCoBench addresses the critical evaluation gap for long-context
capabilities that require understanding entire codebases, reasoning across
multiple files, and maintaining architectural consistency across large-scale
software systems. Our benchmark provides 8,000 evaluation scenarios
systematically generated across 10 programming languages, with context lengths
spanning 10K to 1M tokens, a 100x variation that enables precise assessment of
long-context performance degradation in realistic software development
settings. LoCoBench introduces 8 task categories that capture essential
long-context capabilities: architectural understanding, cross-file refactoring,
multi-session development, bug investigation, feature implementation, code
comprehension, integration testing, and security analysis. Through a 5-phase
pipeline, we create diverse, high-quality scenarios that challenge LLMs to
reason about complex codebases at unprecedented scale. We introduce a
comprehensive evaluation framework with 17 metrics across 4 dimensions,
including 8 new evaluation metrics, combined in a LoCoBench Score (LCBS). Our
evaluation of state-of-the-art long-context models reveals substantial
performance gaps, demonstrating that long-context understanding in complex
software development represents a significant unsolved challenge that demands
more attention. LoCoBench is released at:
https://github.com/SalesforceAIResearch/LoCoBench.