AgentLongBench: Управляемый расширенный бенчмарк для агентов с длинным контекстом через прокатки окружения
AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts
January 28, 2026
Авторы: Shicheng Fang, Yuxin Wang, XiaoRan Liu, Jiahao Lu, Chuanyuan Tan, Xinchi Chen, Yining Zheng. Xuanjing Huang, Xipeng Qiu
cs.AI
Аннотация
Эволюция больших языковых моделей (LLM) в автономные агенты требует управления обширными, динамическими контекстами. Однако современные бенчмарки остаются в основном статичными, полагаясь на пассивные задачи поиска, которые не способны моделировать сложности взаимодействия агента со средой, такие как нелинейные рассуждения и итеративная обратная связь. Для решения этой проблемы мы представляем AgentLongBench — систему, оценивающую агентов через симуляцию развертывания сред на основе головоломок латерального мышления. Данный фреймворк генерирует строгие траектории взаимодействия в сценариях, как требующих, так и не требующих обширных знаний. Эксперименты с передовыми моделями и системами памяти (от 32 тыс. до 4 млн токенов) выявляют ключевую слабость: хотя агенты успешно справляются со статичным поиском, они испытывают трудности с динамическим синтезом информации, критически важным для рабочих процессов. Наш анализ показывает, что это ухудшение обусловлено минимальным количеством токенов, необходимым для разрешения запроса. Данный фактор объясняет, почему высокая информационная плотность, присущая массовым ответам инструментов, представляет значительно более серьезную проблему, чем фрагментация памяти, характерная для длинных диалогов.
English
The evolution of Large Language Models (LLMs) into autonomous agents necessitates the management of extensive, dynamic contexts. Current benchmarks, however, remain largely static, relying on passive retrieval tasks that fail to simulate the complexities of agent-environment interaction, such as non-linear reasoning and iterative feedback. To address this, we introduce AgentLongBench, which evaluates agents through simulated environment rollouts based on Lateral Thinking Puzzles. This framework generates rigorous interaction trajectories across knowledge-intensive and knowledge-free scenarios. Experiments with state-of-the-art models and memory systems (32K to 4M tokens) expose a critical weakness: while adept at static retrieval, agents struggle with the dynamic information synthesis essential for workflows. Our analysis indicates that this degradation is driven by the minimum number of tokens required to resolve a query. This factor explains why the high information density inherent in massive tool responses poses a significantly greater challenge than the memory fragmentation typical of long-turn dialogues.