AgentLongBench: Um Benchmark Longo Controlável para Agentes de Contexto Longo via Simulações de Ambiente

Resumo

A evolução dos Modelos de Linguagem de Grande Porte (LLMs) para agentes autónomos exige a gestão de contextos extensos e dinâmicos. No entanto, os benchmarks atuais permanecem maioritariamente estáticos, baseando-se em tarefas de recuperação passiva que não simulam as complexidades da interação agente-ambiente, como o raciocínio não linear e o feedback iterativo. Para colmatar esta lacuna, introduzimos o AgentLongBench, que avalia agentes através de simulações de ambiente baseadas em Puzzles de Pensamento Lateral. Esta estrutura gera trajetórias de interação rigorosas em cenários intensivos em conhecimento e livres de conhecimento. Experiências com modelos e sistemas de memória de última geração (32K a 4M de tokens) revelam uma fragilidade crítica: embora proficientes na recuperação estática, os agentes debatem-se com a síntese dinâmica de informação essencial para fluxos de trabalho. A nossa análise indica que esta degradação é impulsionada pelo número mínimo de tokens necessários para resolver uma consulta. Este fator explica por que a elevada densidade informática inerente a respostas massivas de ferramentas constitui um desafio significativamente maior do que a fragmentação de memória típica de diálogos longos.

English

The evolution of Large Language Models (LLMs) into autonomous agents necessitates the management of extensive, dynamic contexts. Current benchmarks, however, remain largely static, relying on passive retrieval tasks that fail to simulate the complexities of agent-environment interaction, such as non-linear reasoning and iterative feedback. To address this, we introduce AgentLongBench, which evaluates agents through simulated environment rollouts based on Lateral Thinking Puzzles. This framework generates rigorous interaction trajectories across knowledge-intensive and knowledge-free scenarios. Experiments with state-of-the-art models and memory systems (32K to 4M tokens) expose a critical weakness: while adept at static retrieval, agents struggle with the dynamic information synthesis essential for workflows. Our analysis indicates that this degradation is driven by the minimum number of tokens required to resolve a query. This factor explains why the high information density inherent in massive tool responses poses a significantly greater challenge than the memory fragmentation typical of long-turn dialogues.

AgentLongBench: Um Benchmark Longo Controlável para Agentes de Contexto Longo via Simulações de Ambiente

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

Resumo

Support