LOCA-bench: 제어 가능 및 극단적 문맥 확장 상황에서 언어 에이전트 성능 평가
LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth
February 8, 2026
저자: Weihao Zeng, Yuzhen Huang, Junxian He
cs.AI
초록
대규모 언어 모델(LLM)은 장기간 실행되는 실제 업무를 수행하는 능력이 점차 향상되고 있습니다. 그러나 컨텍스트 양이 증가함에 따라 그 신뢰도는 종종 저하되는데, 이는 "컨텍스트 부패(context rot)" 현상으로 알려져 있습니다. 기존의 장문 컨텍스트 벤치마크는 주로 긴 내용에서 정보를 검색하는 모델의 능력을 평가하는 단일 단계 설정에 중점을 둡니다. 그러나 현실적인 시나리오에서는 LLM이 환경을 탐색하고, 지시와 계획을 따르며, 유용한 정보를 추출하고, 동적으로 증가하는 컨텍스트 하에서 올바른 행동을 예측하는 에이전트 역할을 해야 하는 경우가 많습니다. 이러한 설정에서 언어 에이전트를 평가하기 위해 우리는 LOCA-bench(LOng-Context Agents를 위한 벤치마크)를 소개합니다. 작업 지시문이 주어지면, LOCA-bench는 환경 상태를 자동화 및 확장 가능하게 제어하여 에이전트의 컨텍스트 길이를 조절합니다. 이 설계를 통해 LOCA-bench는 기본 작업 의미론을 고정한 상태로 컨텍스트 길이를 통제된 방식으로 잠재적으로 무한히 확장할 수 있습니다. LOCA-bench는 다양한 컨텍스트 관리 전략을 포함한 모델과 스캐폴드(scaffolds)의 조합으로 언어 에이전트를 평가합니다. 환경 상태가 더 복잡해질수록 에이전트 성능은 일반적으로 저하되지만, 고급 컨텍스트 관리 기술은 전체 성공률을 크게 향상시킬 수 있습니다. 우리는 LOCA-bench를 오픈소스로 공개하여 장문 컨텍스트 에이전트 시나리오에서 모델과 스캐폴드를 평가할 수 있는 플랫폼을 제공합니다: https://github.com/hkust-nlp/LOCA-bench
English
Large language models (LLMs) are increasingly capable of carrying out long-running, real-world tasks. However, as the amount of context grows, their reliability often deteriorates, a phenomenon known as "context rot". Existing long-context benchmarks primarily focus on single-step settings that evaluate a model's ability to retrieve information from a long snippet. In realistic scenarios, however, LLMs often need to act as agents that explore environments, follow instructions and plans, extract useful information, and predict correct actions under a dynamically growing context. To assess language agents in such settings, we introduce LOCA-bench (a benchmark for LOng-Context Agents). Given a task prompt, LOCA-bench leverages automated and scalable control of environment states to regulate the agent's context length. This design enables LOCA-bench to extend the context length potentially to infinity in a controlled way while keeping the underlying task semantics fixed. LOCA-bench evaluates language agents as a combination of models and scaffolds, including various context management strategies. While agent performance generally degrades as the environment states grow more complex, advanced context management techniques can substantially improve the overall success rate. We open-source LOCA-bench to provide a platform for evaluating models and scaffolds in long-context, agentic scenarios: https://github.com/hkust-nlp/LOCA-bench