AgentLongBench : Un benchmark long contrôlable pour les agents à contexte long via des déploiements d'environnement
AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts
January 28, 2026
papers.authors: Shicheng Fang, Yuxin Wang, XiaoRan Liu, Jiahao Lu, Chuanyuan Tan, Xinchi Chen, Yining Zheng. Xuanjing Huang, Xipeng Qiu
cs.AI
papers.abstract
L'évolution des modèles de langage de grande taille (LLM) en agents autonomes nécessite la gestion de contextes étendus et dynamiques. Cependant, les benchmarks actuels restent largement statiques, reposant sur des tâches de récupération passive qui ne simulent pas les complexités de l'interaction agent-environnement, telles que le raisonnement non linéaire et la rétroaction itérative. Pour y remédier, nous présentons AgentLongBench, qui évalue les agents via des déploiements simulés dans des environnements basés sur des énigmes de pensée latérale. Ce cadre génère des trajectoires d'interaction rigoureuses à travers des scénarios intensifs en connaissances et sans connaissances. Les expériences avec des modèles et systèmes de mémoire de pointe (de 32K à 4M de tokens) révèlent une faiblesse critique : bien que compétents en récupération statique, les agents peinent à synthétiser dynamiquement l'information, compétence essentielle pour les flux de travail. Notre analyse indique que cette dégradation est causée par le nombre minimal de tokens requis pour résoudre une requête. Ce facteur explique pourquoi la densité informationnelle élevée inhérente aux réponses massives d'outils constitue un défi bien plus important que la fragmentation mémoire typique des dialogues à longs tours.
English
The evolution of Large Language Models (LLMs) into autonomous agents necessitates the management of extensive, dynamic contexts. Current benchmarks, however, remain largely static, relying on passive retrieval tasks that fail to simulate the complexities of agent-environment interaction, such as non-linear reasoning and iterative feedback. To address this, we introduce AgentLongBench, which evaluates agents through simulated environment rollouts based on Lateral Thinking Puzzles. This framework generates rigorous interaction trajectories across knowledge-intensive and knowledge-free scenarios. Experiments with state-of-the-art models and memory systems (32K to 4M tokens) expose a critical weakness: while adept at static retrieval, agents struggle with the dynamic information synthesis essential for workflows. Our analysis indicates that this degradation is driven by the minimum number of tokens required to resolve a query. This factor explains why the high information density inherent in massive tool responses poses a significantly greater challenge than the memory fragmentation typical of long-turn dialogues.