LOCA-bench: Avaliação Comparativa de Agentes de Linguagem sob Crescimento de Contexto Controlável e Extremo

Resumo

Os modelos de linguagem de grande escala (LLMs) estão cada vez mais capacitados para executar tarefas do mundo real de longa duração. No entanto, à medida que a quantidade de contexto aumenta, sua confiabilidade frequentemente se deteriora, um fenômeno conhecido como "deterioração de contexto" (context rot). Os benchmarks existentes para contexto longo concentram-se principalmente em configurações de etapa única que avaliam a capacidade de um modelo de recuperar informações de um trecho longo. Em cenários realistas, porém, os LLMs frequentemente precisam atuar como agentes que exploram ambientes, seguem instruções e planos, extraem informações úteis e preveem ações corretas sob um contexto que cresce dinamicamente. Para avaliar agentes de linguagem nesses cenários, apresentamos o LOCA-bench (um benchmark para Agentes de LOngo Contexto). Dado um prompt de tarefa, o LOCA-bench aproveita o controle automatizado e escalável dos estados do ambiente para regular o comprimento do contexto do agente. Este projeto permite que o LOCA-bench estenda o comprimento do contexto potencialmente ao infinito de forma controlada, mantendo a semântica da tarefa subjacente fixa. O LOCA-bench avalia os agentes de linguagem como uma combinação de modelos e estruturas de suporte (scaffolds), incluindo várias estratégias de gerenciamento de contexto. Embora o desempenho do agente geralmente se degrade à medida que os estados do ambiente se tornam mais complexos, técnicas avançadas de gerenciamento de contexto podem melhorar substancialmente a taxa de sucesso geral. Disponibilizamos o LOCA-bench como código aberto para fornecer uma plataforma para avaliar modelos e estruturas de suporte em cenários agentivos de longo contexto: https://github.com/hkust-nlp/LOCA-bench

English

Large language models (LLMs) are increasingly capable of carrying out long-running, real-world tasks. However, as the amount of context grows, their reliability often deteriorates, a phenomenon known as "context rot". Existing long-context benchmarks primarily focus on single-step settings that evaluate a model's ability to retrieve information from a long snippet. In realistic scenarios, however, LLMs often need to act as agents that explore environments, follow instructions and plans, extract useful information, and predict correct actions under a dynamically growing context. To assess language agents in such settings, we introduce LOCA-bench (a benchmark for LOng-Context Agents). Given a task prompt, LOCA-bench leverages automated and scalable control of environment states to regulate the agent's context length. This design enables LOCA-bench to extend the context length potentially to infinity in a controlled way while keeping the underlying task semantics fixed. LOCA-bench evaluates language agents as a combination of models and scaffolds, including various context management strategies. While agent performance generally degrades as the environment states grow more complex, advanced context management techniques can substantially improve the overall success rate. We open-source LOCA-bench to provide a platform for evaluating models and scaffolds in long-context, agentic scenarios: https://github.com/hkust-nlp/LOCA-bench

LOCA-bench: Avaliação Comparativa de Agentes de Linguagem sob Crescimento de Contexto Controlável e Extremo

LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

Resumo

Support