MemDreamer: Разделение восприятия и рассуждения для понимания длинных видео с помощью иерархической графовой памяти и агентного механизма извлечения

Аннотация

Современные визуально-языковые модели испытывают трудности при работе с видео продолжительностью в несколько часов, поскольку обработка полных визуальных последовательностей приводит к взрывному росту числа токенов и размыванию внимания. Для преодоления этой проблемы мы представляем MemDreamer, который разделяет восприятие и рассуждение, переводя понимание длинных видео в агентный процесс исследования. Будучи подключаемой архитектурой, он инкрементально обрабатывает видеопотоки для построения иерархической графовой памяти — трехуровневой архитектуры нисходящего типа для семантической абстракции, основанной на фундаментальном графе, фиксирующем пространственно-временные и причинно-следственные связи. Во время инференса модель рассуждения применяет агентный поиск с инструментальным расширением, перемещаясь по иерархиям, осуществляя поиск узлов и обходя логические ребра посредством цикла «Наблюдение – Рассуждение – Действие». Эксперименты показывают, что MemDreamer достигает результатов на уровне SOTA на четырех основных эталонных тестах, сокращая разрыв с экспертами-людьми до всего 3,7 балла. Он ограничивает окно контекста рассуждений лишь 2% от объема полного контекста, одновременно обеспечивая абсолютный прирост точности на 12,5 балла. Кроме того, статистический анализ выявляет сильную положительную линейную корреляцию между производительностью ВЯМ в задачах логического рассуждения и понимания длинных видео, что обосновывает масштабирование агентных способностей как новую парадигму мультимодального восприятия.

English

Current Vision-Language Models struggle with hours-long videos because processing full-length visual sequences induces prohibitive token explosion and attention dilution. To overcome this, we introduce MemDreamer to decouple perception and reasoning, shifting long-video understanding into an agentic exploration process. As a plug-and-play framework, it incrementally streams videos to construct a Hierarchical Graph Memory, a top-down three-tier architecture for semantic abstraction, anchored by a foundational graph capturing spatiotemporal and causal relations. During inference, the reasoning model employs agentic tool-augmented retrieval, navigating hierarchies, searching nodes, and traversing logical edges via an Observation-Reason-Action loop. Experiments show MemDreamer achieves SOTA results across four mainstream benchmarks, narrowing the gap with human experts to only 3.7 points. It constrains the reasoning context window to merely 2% of full-context ingestion while delivering a 12.5 point absolute accuracy gain. Furthermore, statistical analysis uncovers a strong positive linear correlation between an VLM's performance on logic reasoning and long-video understanding benchmarks, establishing agentic capability scaling as a new paradigm for multimodal comprehension.