ChatPaper.aiChatPaper

LOCA-bench: Evaluación de Agentes Lingüísticos en Condiciones de Crecimiento Extremo y Controlado del Contexto

LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

February 8, 2026
Autores: Weihao Zeng, Yuzhen Huang, Junxian He
cs.AI

Resumen

Los modelos de lenguaje de gran tamaño (LLM) son cada vez más capaces de llevar a cabo tareas del mundo real de larga duración. Sin embargo, a medida que crece la cantidad de contexto, su fiabilidad a menudo se deteriora, un fenómeno conocido como "deterioro del contexto" (context rot). Los puntos de referencia existentes para contextos largos se centran principalmente en entornos de un solo paso que evalúan la capacidad de un modelo para recuperar información de un fragmento largo. Sin embargo, en escenarios realistas, los LLM a menudo necesitan actuar como agentes que exploran entornos, siguen instrucciones y planes, extraen información útil y predicen acciones correctas bajo un contexto que crece dinámicamente. Para evaluar a los agentes de lenguaje en tales entornos, presentamos LOCA-bench (un punto de referencia para Agentes de LOngo Contexto). Dado un mensaje de tarea, LOCA-bench aprovecha el control automático y escalable de los estados del entorno para regular la longitud del contexto del agente. Este diseño permite a LOCA-bench extender la longitud del contexto potencialmente hasta el infinito de manera controlada, manteniendo fija la semántica subyacente de la tarea. LOCA-bench evalúa a los agentes de lenguaje como una combinación de modelos y andamios (scaffolds), incluyendo varias estrategias de gestión del contexto. Si bien el rendimiento del agente generalmente se degrada a medida que los estados del entorno se vuelven más complejos, las técnicas avanzadas de gestión del contexto pueden mejorar sustancialmente la tasa de éxito general. Liberamos LOCA-bench como código abierto para proporcionar una plataforma para evaluar modelos y andamios en escenarios agenticos de contexto largo: https://github.com/hkust-nlp/LOCA-bench
English
Large language models (LLMs) are increasingly capable of carrying out long-running, real-world tasks. However, as the amount of context grows, their reliability often deteriorates, a phenomenon known as "context rot". Existing long-context benchmarks primarily focus on single-step settings that evaluate a model's ability to retrieve information from a long snippet. In realistic scenarios, however, LLMs often need to act as agents that explore environments, follow instructions and plans, extract useful information, and predict correct actions under a dynamically growing context. To assess language agents in such settings, we introduce LOCA-bench (a benchmark for LOng-Context Agents). Given a task prompt, LOCA-bench leverages automated and scalable control of environment states to regulate the agent's context length. This design enables LOCA-bench to extend the context length potentially to infinity in a controlled way while keeping the underlying task semantics fixed. LOCA-bench evaluates language agents as a combination of models and scaffolds, including various context management strategies. While agent performance generally degrades as the environment states grow more complex, advanced context management techniques can substantially improve the overall success rate. We open-source LOCA-bench to provide a platform for evaluating models and scaffolds in long-context, agentic scenarios: https://github.com/hkust-nlp/LOCA-bench
PDF232February 11, 2026