AgentLongBench: Un benchmark lungo e controllabile per agenti a contesto lungo tramite roll-out ambientali

Abstract

L'evoluzione dei Large Language Model (LLM) in agenti autonomi richiede la gestione di contesti estesi e dinamici. Gli attuali benchmark, tuttavia, rimangono largamente statici, basandosi su compiti di recupero passivo che non simulano le complessità dell'interazione agente-ambiente, come il ragionamento non lineare e il feedback iterativo. Per affrontare questa lacuna, introduciamo AgentLongBench, che valuta gli agenti attraverso simulazioni di ambienti basate su enigmi di pensiero laterale. Questo framework genera traiettorie di interazione rigorose in scenari ad alta intensità di conoscenza e privi di conoscenza. Esperimenti con modelli all'avanguardia e sistemi di memoria (da 32K a 4M di token) rivelano una criticità fondamentale: sebbene abili nel recupero statico, gli agenti faticano nella sintesi dinamica delle informazioni, essenziale per i flussi di lavoro. La nostra analisi indica che questo deterioramento delle prestazioni è guidato dal numero minimo di token necessari per risolvere una query. Questo fattore spiega perché l'alta densità informativa intrinseca nelle risposte massive degli strumenti costituisce una sfida significativamente maggiore della frammentazione della memoria tipica dei dialoghi a lungo termine.

English

The evolution of Large Language Models (LLMs) into autonomous agents necessitates the management of extensive, dynamic contexts. Current benchmarks, however, remain largely static, relying on passive retrieval tasks that fail to simulate the complexities of agent-environment interaction, such as non-linear reasoning and iterative feedback. To address this, we introduce AgentLongBench, which evaluates agents through simulated environment rollouts based on Lateral Thinking Puzzles. This framework generates rigorous interaction trajectories across knowledge-intensive and knowledge-free scenarios. Experiments with state-of-the-art models and memory systems (32K to 4M tokens) expose a critical weakness: while adept at static retrieval, agents struggle with the dynamic information synthesis essential for workflows. Our analysis indicates that this degradation is driven by the minimum number of tokens required to resolve a query. This factor explains why the high information density inherent in massive tool responses poses a significantly greater challenge than the memory fragmentation typical of long-turn dialogues.

AgentLongBench: Un benchmark lungo e controllabile per agenti a contesto lungo tramite roll-out ambientali

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

Abstract

Support