LOCA-bench : Évaluation des agents linguistiques dans un contexte de croissance contextuelle contrôlée et extrême
LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth
February 8, 2026
papers.authors: Weihao Zeng, Yuzhen Huang, Junxian He
cs.AI
papers.abstract
Les grands modèles de langage (LLM) sont de plus en plus capables d'exécuter des tâches du monde réel sur de longues durées. Cependant, à mesure que la quantité de contexte augmente, leur fiabilité se dégrade souvent, un phénomène connu sous le nom de "détérioration contextuelle". Les benchmarks existants pour les contextes longs se concentrent principalement sur des configurations à une seule étape qui évaluent la capacité d'un modèle à récupérer des informations à partir d'un long extrait. Pourtant, dans des scénarios réalistes, les LLM doivent souvent agir comme des agents qui explorent des environnements, suivent des instructions et des plans, extraient des informations utiles et prédisent des actions correctes dans un contexte qui s'accroît dynamiquement. Pour évaluer les agents linguistiques dans de tels contextes, nous présentons LOCA-bench (un benchmark pour les agents à LOng Contexte). Étant donné une instruction de tâche, LOCA-bench utilise un contrôle automatisé et évolutif des états de l'environnement pour réguler la longueur du contexte de l'agent. Cette conception permet à LOCA-bench d'étendre la longueur du contexte potentiellement à l'infini de manière contrôlée, tout en maintenant fixes les sémantiques sous-jacentes de la tâche. LOCA-bench évalue les agents linguistiques comme une combinaison de modèles et d'échafaudages, incluant diverses stratégies de gestion du contexte. Bien que les performances des agents se dégradent généralement à mesure que les états de l'environnement deviennent plus complexes, les techniques avancées de gestion du contexte peuvent considérablement améliorer le taux de réussite global. Nous mettons LOCA-bench en open source pour fournir une plateforme d'évaluation des modèles et des échafaudages dans des scénarios agentiques à long contexte : https://github.com/hkust-nlp/LOCA-bench
English
Large language models (LLMs) are increasingly capable of carrying out long-running, real-world tasks. However, as the amount of context grows, their reliability often deteriorates, a phenomenon known as "context rot". Existing long-context benchmarks primarily focus on single-step settings that evaluate a model's ability to retrieve information from a long snippet. In realistic scenarios, however, LLMs often need to act as agents that explore environments, follow instructions and plans, extract useful information, and predict correct actions under a dynamically growing context. To assess language agents in such settings, we introduce LOCA-bench (a benchmark for LOng-Context Agents). Given a task prompt, LOCA-bench leverages automated and scalable control of environment states to regulate the agent's context length. This design enables LOCA-bench to extend the context length potentially to infinity in a controlled way while keeping the underlying task semantics fixed. LOCA-bench evaluates language agents as a combination of models and scaffolds, including various context management strategies. While agent performance generally degrades as the environment states grow more complex, advanced context management techniques can substantially improve the overall success rate. We open-source LOCA-bench to provide a platform for evaluating models and scaffolds in long-context, agentic scenarios: https://github.com/hkust-nlp/LOCA-bench