MemDreamer: Desacoplamento da Percepção e do Raciocínio para Compreensão de Vídeos Longos através de Memória de Grafo Hierárquica e Mecanismo de Recuperação Agentiva

Resumo

Os atuais Modelos de Visão-Linguagem enfrentam dificuldades com vídeos de horas de duração, pois processar sequências visuais completas induz uma explosão proibitiva de tokens e diluição de atenção. Para superar isso, apresentamos o MemDreamer, que desacopla percepção e raciocínio, transformando a compreensão de vídeos longos em um processo de exploração agentiva. Como um framework plug-and-play, ele transmite vídeos incrementalmente para construir uma Memória de Grafo Hierárquico, uma arquitetura descendente de três camadas para abstração semântica, ancorada por um grafo fundamental que captura relações espaciotemporais e causais. Durante a inferência, o modelo de raciocínio emprega recuperação aumentada por ferramentas agentivas, navegando por hierarquias, pesquisando nós e percorrendo arestas lógicas por meio de um ciclo Observação-Raciocínio-Ação. Experimentos mostram que o MemDreamer alcança resultados estado da arte em quatro referências principais, reduzindo a diferença para especialistas humanos para apenas 3,7 pontos. Ele restringe a janela de contexto de raciocínio a meros 2% da ingestão de contexto completo, ao mesmo tempo que obtém um ganho absoluto de precisão de 12,5 pontos. Além disso, a análise estatística revela uma forte correlação linear positiva entre o desempenho de um VLM em raciocínio lógico e em referências de compreensão de vídeos longos, estabelecendo o escalonamento de capacidade agentiva como um novo paradigma para a compreensão multimodal.

English

Current Vision-Language Models struggle with hours-long videos because processing full-length visual sequences induces prohibitive token explosion and attention dilution. To overcome this, we introduce MemDreamer to decouple perception and reasoning, shifting long-video understanding into an agentic exploration process. As a plug-and-play framework, it incrementally streams videos to construct a Hierarchical Graph Memory, a top-down three-tier architecture for semantic abstraction, anchored by a foundational graph capturing spatiotemporal and causal relations. During inference, the reasoning model employs agentic tool-augmented retrieval, navigating hierarchies, searching nodes, and traversing logical edges via an Observation-Reason-Action loop. Experiments show MemDreamer achieves SOTA results across four mainstream benchmarks, narrowing the gap with human experts to only 3.7 points. It constrains the reasoning context window to merely 2% of full-context ingestion while delivering a 12.5 point absolute accuracy gain. Furthermore, statistical analysis uncovers a strong positive linear correlation between an VLM's performance on logic reasoning and long-video understanding benchmarks, establishing agentic capability scaling as a new paradigm for multimodal comprehension.