AgentLongBench: 環境ロールアウトによる長文脈エージェントのための制御可能な長尺ベンチマーク
AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts
January 28, 2026
著者: Shicheng Fang, Yuxin Wang, XiaoRan Liu, Jiahao Lu, Chuanyuan Tan, Xinchi Chen, Yining Zheng. Xuanjing Huang, Xipeng Qiu
cs.AI
要旨
大規模言語モデル(LLM)の自律エージェント化には、広範かつ動的な文脈の管理が不可欠である。しかし、現在のベンチマークは依然として静的が主流で、非線形推論や反復的フィードバックといったエージェントと環境の相互作用の複雑さを模擬できない受動的検索タスクに依存している。この問題に対処するため、本論文では Lateral Thinking Puzzles(水平思考パズル)に基づくシミュレーション環境のロールアウトを通じてエージェントを評価する AgentLongBench を提案する。この枠組みは、知識集約的シナリオと知識非依存シナリオの両方において、厳密な相互作用軌跡を生成する。最新のモデルとメモリシステム(32K ~ 4M トークン)を用いた実験により、決定的な弱点が明らかになった:エージェントは静的検索には熟達しているものの、ワークフローに本質的な動的情報統合に苦戦するのである。分析の結果、この性能低下はクエリ解決に必要な最小トークン数によって引き起こされることが示唆された。この要因は、大規模なツール応答に内在する高い情報密度が、長い対話ターンで典型的なメモリ断片化よりも、はるかに大きな課題となる理由を説明する。
English
The evolution of Large Language Models (LLMs) into autonomous agents necessitates the management of extensive, dynamic contexts. Current benchmarks, however, remain largely static, relying on passive retrieval tasks that fail to simulate the complexities of agent-environment interaction, such as non-linear reasoning and iterative feedback. To address this, we introduce AgentLongBench, which evaluates agents through simulated environment rollouts based on Lateral Thinking Puzzles. This framework generates rigorous interaction trajectories across knowledge-intensive and knowledge-free scenarios. Experiments with state-of-the-art models and memory systems (32K to 4M tokens) expose a critical weakness: while adept at static retrieval, agents struggle with the dynamic information synthesis essential for workflows. Our analysis indicates that this degradation is driven by the minimum number of tokens required to resolve a query. This factor explains why the high information density inherent in massive tool responses poses a significantly greater challenge than the memory fragmentation typical of long-turn dialogues.