LOCA-bench: Тестирование языковых агентов в условиях контролируемого и экстремального роста контекста
LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth
February 8, 2026
Авторы: Weihao Zeng, Yuzhen Huang, Junxian He
cs.AI
Аннотация
Крупные языковые модели (LLMs) демонстрируют растущую способность выполнять длительные задачи в реальных условиях. Однако по мере увеличения объема контекста их надежность часто снижается — это явление известно как «деградация контекста» (context rot). Существующие бенчмарки для длинного контекста в основном сосредоточены на одношаговых сценариях, которые оценивают способность модели извлекать информацию из длинного фрагмента. В реалистичных же сценариях LLMs часто должны действовать как агенты, которые исследуют окружение, следуют инструкциям и планам, извлекают полезную информацию и прогнозируют правильные действия в условиях динамически растущего контекста. Чтобы оценить языковых агентов в таких условиях, мы представляем LOCA-bench (бенчмарк для агентов с длинным контекстом). Получив промт задачи, LOCA-bench использует автоматизированное и масштабируемое управление состояниями окружения для регулирования длины контекста агента. Такой подход позволяет LOCA-bench потенциально бесконечно увеличивать длину контекста контролируемым образом, сохраняя при этом семантику базовой задачи неизменной. LOCA-bench оценивает языковых агентов как комбинацию моделей и вспомогательных структур (scaffolds), включая различные стратегии управления контекстом. Хотя производительность агентов в целом снижается по мере усложнения состояний окружения, передовые методы управления контекстом могут существенно повысить общий показатель успешности. Мы представляем LOCA-bench в открытом доступе как платформу для оценки моделей и вспомогательных структур в сценариях с длинным контекстом и агентным поведением: https://github.com/hkust-nlp/LOCA-bench
English
Large language models (LLMs) are increasingly capable of carrying out long-running, real-world tasks. However, as the amount of context grows, their reliability often deteriorates, a phenomenon known as "context rot". Existing long-context benchmarks primarily focus on single-step settings that evaluate a model's ability to retrieve information from a long snippet. In realistic scenarios, however, LLMs often need to act as agents that explore environments, follow instructions and plans, extract useful information, and predict correct actions under a dynamically growing context. To assess language agents in such settings, we introduce LOCA-bench (a benchmark for LOng-Context Agents). Given a task prompt, LOCA-bench leverages automated and scalable control of environment states to regulate the agent's context length. This design enables LOCA-bench to extend the context length potentially to infinity in a controlled way while keeping the underlying task semantics fixed. LOCA-bench evaluates language agents as a combination of models and scaffolds, including various context management strategies. While agent performance generally degrades as the environment states grow more complex, advanced context management techniques can substantially improve the overall success rate. We open-source LOCA-bench to provide a platform for evaluating models and scaffolds in long-context, agentic scenarios: https://github.com/hkust-nlp/LOCA-bench