ChatPaper.aiChatPaper

AgentLongBench: 환경 롤아웃을 통한 제어 가능한 장문 컨텍스트 에이전트 벤치마크

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

January 28, 2026
저자: Shicheng Fang, Yuxin Wang, XiaoRan Liu, Jiahao Lu, Chuanyuan Tan, Xinchi Chen, Yining Zheng. Xuanjing Huang, Xipeng Qiu
cs.AI

초록

대규모 언어 모델(LLM)이 자율 에이전트로 진화함에 따라 방대하고 동적인 콘텍스트 관리가 필수적으로 요구된다. 그러나 현재 벤치마크는 대부분 정적 상태로 남아 있으며, 비선형 추론 및 반복적 피드백과 같은 에이전트-환경 상호작용의 복잡성을 제대로 구현하지 못하는 수동적 정보 검색 과제에 의존하고 있다. 이를 해결하기 위해 우리는 측면 사고 퍼즐(Lateral Thinking Puzzles)을 기반으로 시뮬레이션 환경 롤아웃(rollout)을 통해 에이전트를 평가하는 AgentLongBench를 제안한다. 이 프레임워크는 지식 집약적 시나리오와 지름길(지식 비의존적) 시나리오 전반에 걸쳐 엄격한 상호작용 궤적을 생성한다. 최첨단 모델 및 메모리 시스템(32K~4M 토큰)을 이용한 실험 결과, 정적 검색에는 능숙하지만 워크플로우에 필수적인 동적 정보 통합에는 어려움을 겪는 중요한 취약점이 드러났다. 우리의 분석에 따르면, 이러한 성능 저하는 질의를 해결하는 데 필요한 최소 토큰 수에 기인한다. 이 요인은 대규모 도구 응답에 내재된 높은 정보 밀도가 장문 대화에서 흔히 나타나는 메모리 단편화보다 훨씬 더 큰 도전 과제가 되는 이유를 설명해 준다.
English
The evolution of Large Language Models (LLMs) into autonomous agents necessitates the management of extensive, dynamic contexts. Current benchmarks, however, remain largely static, relying on passive retrieval tasks that fail to simulate the complexities of agent-environment interaction, such as non-linear reasoning and iterative feedback. To address this, we introduce AgentLongBench, which evaluates agents through simulated environment rollouts based on Lateral Thinking Puzzles. This framework generates rigorous interaction trajectories across knowledge-intensive and knowledge-free scenarios. Experiments with state-of-the-art models and memory systems (32K to 4M tokens) expose a critical weakness: while adept at static retrieval, agents struggle with the dynamic information synthesis essential for workflows. Our analysis indicates that this degradation is driven by the minimum number of tokens required to resolve a query. This factor explains why the high information density inherent in massive tool responses poses a significantly greater challenge than the memory fragmentation typical of long-turn dialogues.
PDF184January 31, 2026