MemDreamer: Desacoplar Percepción y Razonamiento para la Comprensión de Videos Largos mediante Memoria de Grafo Jerárquico y Mecanismo de Recuperación Basado en Agentes

Resumen

Los actuales Modelos de Lenguaje Visual (VLM) tienen dificultades con vídeos de horas de duración, ya que procesar secuencias visuales completas provoca una explosión prohibitiva de tokens y una dilución de la atención. Para superar esto, presentamos MemDreamer, que desacopla la percepción y el razonamiento, transformando la comprensión de vídeos largos en un proceso de exploración agéntico. Como marco de trabajo plug-and-play, transmite vídeos de forma incremental para construir una Memoria Jerárquica en Grafo, una arquitectura de tres niveles de arriba abajo para la abstracción semántica, anclada en un grafo fundamental que captura relaciones espaciotemporales y causales. Durante la inferencia, el modelo de razonamiento emplea una recuperación aumentada por herramientas agénticas, navegando por las jerarquías, buscando nodos y recorriendo aristas lógicas mediante un bucle de Observación-Razonamiento-Acción. Los experimentos muestran que MemDreamer logra resultados de estado del arte (SOTA) en cuatro bancos de pruebas principales, reduciendo la brecha con los expertos humanos a solo 3,7 puntos. Limita la ventana de contexto de razonamiento a apenas el 2% de la ingesta de contexto completo, al tiempo que ofrece una ganancia absoluta de precisión de 12,5 puntos. Además, el análisis estadístico revela una fuerte correlación lineal positiva entre el rendimiento de un VLM en razonamiento lógico y en bancos de pruebas de comprensión de vídeos largos, estableciendo el escalado de capacidades agénticas como un nuevo paradigma para la comprensión multimodal.

English

Current Vision-Language Models struggle with hours-long videos because processing full-length visual sequences induces prohibitive token explosion and attention dilution. To overcome this, we introduce MemDreamer to decouple perception and reasoning, shifting long-video understanding into an agentic exploration process. As a plug-and-play framework, it incrementally streams videos to construct a Hierarchical Graph Memory, a top-down three-tier architecture for semantic abstraction, anchored by a foundational graph capturing spatiotemporal and causal relations. During inference, the reasoning model employs agentic tool-augmented retrieval, navigating hierarchies, searching nodes, and traversing logical edges via an Observation-Reason-Action loop. Experiments show MemDreamer achieves SOTA results across four mainstream benchmarks, narrowing the gap with human experts to only 3.7 points. It constrains the reasoning context window to merely 2% of full-context ingestion while delivering a 12.5 point absolute accuracy gain. Furthermore, statistical analysis uncovers a strong positive linear correlation between an VLM's performance on logic reasoning and long-video understanding benchmarks, establishing agentic capability scaling as a new paradigm for multimodal comprehension.