LOCA-bench: Valutazione delle Capacità degli Agenti Linguistici in Condizioni di Crescita Controllata ed Estrema del Contesto

Abstract

I modelli linguistici di grandi dimensioni (LLM) stanno diventando sempre più capaci di svolgere compiti reali di lunga durata. Tuttavia, man mano che la quantità di contesto aumenta, la loro affidabilità spesso si deteriora, un fenomeno noto come "degrado del contesto" (context rot). I benchmark esistenti per contesti lunghi si concentrano principalmente su impostazioni a singolo passo che valutano la capacità di un modello di recuperare informazioni da un frammento lungo. In scenari realistici, tuttavia, gli LLM spesso devono agire come agenti che esplorano ambienti, seguono istruzioni e piani, estraggono informazioni utili e predicono azioni corrette in un contesto che cresce dinamicamente. Per valutare gli agenti linguistici in tali contesti, introduciamo LOCA-bench (un benchmark per Agenti a Contesto Lungo). Data un'istruzione di compito, LOCA-bench sfrutta un controllo automatizzato e scalabile degli stati ambientali per regolare la lunghezza del contesto dell'agente. Questo design consente a LOCA-bench di estendere la lunghezza del contesto potenzialmente all'infinito in modo controllato, mantenendo fissa la semantica del compito sottostante. LOCA-bench valuta gli agenti linguistici come una combinazione di modelli e impalcature (scaffold), includendo varie strategie di gestione del contesto. Sebbene le prestazioni degli agenti generalmente si degradino man mano che gli stati ambientali diventano più complessi, tecniche avanzate di gestione del contesto possono migliorare sostanzialmente il tasso di successo complessivo. Rendi-amo open-source LOCA-bench per fornire una piattaforma per valutare modelli e impalcature in scenari agentivi a contesto lungo: https://github.com/hkust-nlp/LOCA-bench

English

Large language models (LLMs) are increasingly capable of carrying out long-running, real-world tasks. However, as the amount of context grows, their reliability often deteriorates, a phenomenon known as "context rot". Existing long-context benchmarks primarily focus on single-step settings that evaluate a model's ability to retrieve information from a long snippet. In realistic scenarios, however, LLMs often need to act as agents that explore environments, follow instructions and plans, extract useful information, and predict correct actions under a dynamically growing context. To assess language agents in such settings, we introduce LOCA-bench (a benchmark for LOng-Context Agents). Given a task prompt, LOCA-bench leverages automated and scalable control of environment states to regulate the agent's context length. This design enables LOCA-bench to extend the context length potentially to infinity in a controlled way while keeping the underlying task semantics fixed. LOCA-bench evaluates language agents as a combination of models and scaffolds, including various context management strategies. While agent performance generally degrades as the environment states grow more complex, advanced context management techniques can substantially improve the overall success rate. We open-source LOCA-bench to provide a platform for evaluating models and scaffolds in long-context, agentic scenarios: https://github.com/hkust-nlp/LOCA-bench

LOCA-bench: Valutazione delle Capacità degli Agenti Linguistici in Condizioni di Crescita Controllata ed Estrema del Contesto

LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

Abstract

Support