ChatPaper.aiChatPaper

AgentLongBench: Ein steuerbarer Langzeit-Benchmark für Agenten mit langen Kontexten durch Environment Rollouts

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

January 28, 2026
papers.authors: Shicheng Fang, Yuxin Wang, XiaoRan Liu, Jiahao Lu, Chuanyuan Tan, Xinchi Chen, Yining Zheng. Xuanjing Huang, Xipeng Qiu
cs.AI

papers.abstract

Die Entwicklung großer Sprachmodelle (LLMs) zu autonomen Agenten erfordert die Verwaltung umfangreicher, dynamischer Kontexte. Aktuelle Benchmarks sind jedoch weitgehend statisch und stützen sich auf passive Retrieval-Aufgaben, die die Komplexität der Agenten-Umgebungs-Interaktion, wie nicht-lineares Schließen und iteratives Feedback, nicht simulieren. Um dies zu adressieren, führen wir AgentLongBench ein, das Agenten durch simulierte Umgebungs-Rollouts auf Basis von Lateral Thinking Puzzles evaluiert. Dieses Framework erzeugt rigorose Interaktionsverläufe in wissensintensiven und wissensfreien Szenarien. Experimente mit modernsten Modellen und Gedächtnissystemen (32K bis 4M Tokens) decken eine kritische Schwäche auf: Während Agenten im statischen Retrieval versiert sind, haben sie Schwierigkeiten mit der dynamischen Informationssynthese, die für Arbeitsabläufe essenziell ist. Unsere Analyse zeigt, dass dieser Leistungsabfall durch die minimale Anzahl an Tokens bestimmt wird, die zur Beantwortung einer Anfrage benötigt wird. Dieser Faktor erklärt, warum die hohe Informationsdichte in massiven Werkzeugantworten eine deutlich größere Herausforderung darstellt als die für lange Dialoge typische Gedächtnisfragmentierung.
English
The evolution of Large Language Models (LLMs) into autonomous agents necessitates the management of extensive, dynamic contexts. Current benchmarks, however, remain largely static, relying on passive retrieval tasks that fail to simulate the complexities of agent-environment interaction, such as non-linear reasoning and iterative feedback. To address this, we introduce AgentLongBench, which evaluates agents through simulated environment rollouts based on Lateral Thinking Puzzles. This framework generates rigorous interaction trajectories across knowledge-intensive and knowledge-free scenarios. Experiments with state-of-the-art models and memory systems (32K to 4M tokens) expose a critical weakness: while adept at static retrieval, agents struggle with the dynamic information synthesis essential for workflows. Our analysis indicates that this degradation is driven by the minimum number of tokens required to resolve a query. This factor explains why the high information density inherent in massive tool responses poses a significantly greater challenge than the memory fragmentation typical of long-turn dialogues.
PDF184January 31, 2026