AgentLongBench: Un Punto de Referencia Largo y Controlable para Agentes de Contexto Extenso mediante Simulaciones de Entorno
AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts
January 28, 2026
Autores: Shicheng Fang, Yuxin Wang, XiaoRan Liu, Jiahao Lu, Chuanyuan Tan, Xinchi Chen, Yining Zheng. Xuanjing Huang, Xipeng Qiu
cs.AI
Resumen
La evolución de los Modelos de Lenguaje a Gran Escala (LLMs) hacia agentes autónomos requiere la gestión de contextos extensos y dinámicos. Sin embargo, los puntos de referencia actuales siguen siendo mayoritariamente estáticos, basándose en tareas de recuperación pasiva que no simulan las complejidades de la interacción agente-entorno, como el razonamiento no lineal y la retroalimentación iterativa. Para abordar esto, presentamos AgentLongBench, que evalúa a los agentes mediante simulaciones de entorno basadas en Acertijos de Pensamiento Lateral. Este marco genera trayectorias de interacción rigurosas en escenarios intensivos en conocimiento y libres de conocimiento. Los experimentos con modelos y sistemas de memoria de última generación (de 32K a 4M de tokens) revelan una debilidad crítica: aunque son hábiles en la recuperación estática, los agentes tienen dificultades con la síntesis dinámica de información esencial para los flujos de trabajo. Nuestro análisis indica que esta degradación está impulsada por el número mínimo de tokens necesarios para resolver una consulta. Este factor explica por qué la alta densidad de información inherente a las respuestas masivas de herramientas representa un desafío significativamente mayor que la fragmentación de memoria típica de los diálogos largos.
English
The evolution of Large Language Models (LLMs) into autonomous agents necessitates the management of extensive, dynamic contexts. Current benchmarks, however, remain largely static, relying on passive retrieval tasks that fail to simulate the complexities of agent-environment interaction, such as non-linear reasoning and iterative feedback. To address this, we introduce AgentLongBench, which evaluates agents through simulated environment rollouts based on Lateral Thinking Puzzles. This framework generates rigorous interaction trajectories across knowledge-intensive and knowledge-free scenarios. Experiments with state-of-the-art models and memory systems (32K to 4M tokens) expose a critical weakness: while adept at static retrieval, agents struggle with the dynamic information synthesis essential for workflows. Our analysis indicates that this degradation is driven by the minimum number of tokens required to resolve a query. This factor explains why the high information density inherent in massive tool responses poses a significantly greater challenge than the memory fragmentation typical of long-turn dialogues.