LOCA-bench: 制御可能かつ極端な文脈拡大下における言語エージェントのベンチマーキング
LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth
February 8, 2026
著者: Weihao Zeng, Yuzhen Huang, Junxian He
cs.AI
要旨
大規模言語モデル(LLM)は、長期間にわたる実世界のタスクを遂行する能力がますます高まっている。しかし、コンテキスト量が増加するにつれて、その信頼性はしばしば低下する。これは「コンテキスト腐敗」として知られる現象である。既存の長文コンテキストベンチマークは、主に長文スニペットからの情報検索能力を評価する単一ステップ設定に焦点を当てている。しかし現実的なシナリオでは、LLMは多くの場合、環境を探索し、指示や計画に従い、有用な情報を抽出し、動的に成長するコンテキスト下で正しい行動を予測するエージェントとして動作する必要がある。このような設定で言語エージェントを評価するため、我々はLOCA-bench(LOng-Context Agentsのベンチマーク)を提案する。タスクプロンプトが与えられると、LOCA-benchは環境状態の自動化されたスケーラブルな制御を活用し、エージェントのコンテキスト長を調整する。この設計により、LOCA-benchは基礎となるタスク意味を固定したまま、制御された方法でコンテキスト長を理論上無限に拡張することが可能となる。LOCA-benchは、モデルとスキャフォールド(様々なコンテキスト管理戦略を含む)の組み合わせとして言語エージェントを評価する。環境状態が複雑化するにつれてエージェントの性能は一般に低下するが、高度なコンテキスト管理技術は全体の成功率を大幅に向上させうる。我々はLOCA-benchをオープンソース化し、長文コンテキストにおけるエージェントシナリオでのモデルとスキャフォールド評価のためのプラットフォームを提供する:https://github.com/hkust-nlp/LOCA-bench
English
Large language models (LLMs) are increasingly capable of carrying out long-running, real-world tasks. However, as the amount of context grows, their reliability often deteriorates, a phenomenon known as "context rot". Existing long-context benchmarks primarily focus on single-step settings that evaluate a model's ability to retrieve information from a long snippet. In realistic scenarios, however, LLMs often need to act as agents that explore environments, follow instructions and plans, extract useful information, and predict correct actions under a dynamically growing context. To assess language agents in such settings, we introduce LOCA-bench (a benchmark for LOng-Context Agents). Given a task prompt, LOCA-bench leverages automated and scalable control of environment states to regulate the agent's context length. This design enables LOCA-bench to extend the context length potentially to infinity in a controlled way while keeping the underlying task semantics fixed. LOCA-bench evaluates language agents as a combination of models and scaffolds, including various context management strategies. While agent performance generally degrades as the environment states grow more complex, advanced context management techniques can substantially improve the overall success rate. We open-source LOCA-bench to provide a platform for evaluating models and scaffolds in long-context, agentic scenarios: https://github.com/hkust-nlp/LOCA-bench