AgentLongBench: Een Controleerbare Lange Benchmark voor Agenten met Lange Contexten via Environment Rollouts

Samenvatting

De evolutie van Large Language Models (LLM's) naar autonome agents vereist het beheer van uitgebreide, dynamische contexten. Huidige benchmarks blijven echter grotendeels statisch en steunen op passieve retrievalthandelingen die de complexiteit van agent-omgevingsinteractie, zoals niet-lineair redeneren en iteratieve feedback, niet simuleren. Om dit aan te pakken, introduceren we AgentLongBench, dat agents evalueert via gesimuleerde omgevingsrollouts gebaseerd op Lateral Thinking Puzzles. Dit framework genereert rigoureuze interactietrajectoria in zowel kennisintensieve als kennisvrije scenario's. Experimenten met state-of-the-art modellen en geheugensystemen (32K tot 4M tokens) leggen een kritieke zwakte bloot: hoewel bedreven in statische retrievalthandelingen, hebben agents moeite met de dynamische informatiesynthese die essentieel is voor workflows. Onze analyse geeft aan dat deze prestatievermindering wordt veroorzaakt door het minimale aantal tokens dat nodig is om een query op te lossen. Deze factor verklaart waarom de inherent hoge informatiedichtheid in massieve toolresponses een aanzienlijk grotere uitdaging vormt dan de geheugenfragmentatie die typisch is voor lange dialogen.

English

The evolution of Large Language Models (LLMs) into autonomous agents necessitates the management of extensive, dynamic contexts. Current benchmarks, however, remain largely static, relying on passive retrieval tasks that fail to simulate the complexities of agent-environment interaction, such as non-linear reasoning and iterative feedback. To address this, we introduce AgentLongBench, which evaluates agents through simulated environment rollouts based on Lateral Thinking Puzzles. This framework generates rigorous interaction trajectories across knowledge-intensive and knowledge-free scenarios. Experiments with state-of-the-art models and memory systems (32K to 4M tokens) expose a critical weakness: while adept at static retrieval, agents struggle with the dynamic information synthesis essential for workflows. Our analysis indicates that this degradation is driven by the minimum number of tokens required to resolve a query. This factor explains why the high information density inherent in massive tool responses poses a significantly greater challenge than the memory fragmentation typical of long-turn dialogues.

AgentLongBench: Een Controleerbare Lange Benchmark voor Agenten met Lange Contexten via Environment Rollouts

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

Samenvatting

Support