MemDreamer: Entkopplung von Wahrnehmung und Schlussfolgerung für das Verständnis langer Videos durch hierarchischen Graphspeicher und agentischen Retrieval-Mechanismus

Zusammenfassung

Aktuelle Vision-Language-Modelle (VLMs) haben Schwierigkeiten mit stundenlangen Videos, da die Verarbeitung vollständiger visueller Sequenzen zu einer untragbaren Token-Explosion und Aufmerksamkeitsverdünnung führt. Um dies zu überwinden, führen wir MemDreamer ein, der Wahrnehmung und Reasoning entkoppelt und das Verständnis langer Videos in einen agentischen Explorationsprozess überführt. Als Plug-and-Play-Framework streamt er Videos inkrementell, um ein hierarchisches Graphgedächtnis aufzubauen – eine Top-Down-Drei-Ebenen-Architektur zur semantischen Abstraktion, verankert durch einen grundlegenden Graphen, der räumlich-zeitliche und kausale Beziehungen erfasst. Während der Inferenz nutzt das Reasoning-Modell agentisches, werkzeugunterstütztes Retrieval, durchquert Hierarchien, durchsucht Knoten und traversiert logische Kanten über eine Beobachtungs-Reasoning-Aktions-Schleife. Experimente zeigen, dass MemDreamer auf vier gängigen Benchmarks Spitzenergebnisse (SOTA) erzielt und den Abstand zu menschlichen Experten auf nur 3,7 Punkte verringert. Er begrenzt das Reasoning-Kontextfenster auf lediglich 2 % der Vollkontextaufnahme und erzielt gleichzeitig eine absolute Genauigkeitssteigerung von 12,5 Punkten. Darüber hinaus deckt eine statistische Analyse eine starke positive lineare Korrelation zwischen der Leistung eines VLM bei Logik-Reasoning- und Langvideo-Verständnis-Benchmarks auf, was die agentische Fähigkeitsskalierung als neues Paradigma für multimodales Verständnis etabliert.

English

Current Vision-Language Models struggle with hours-long videos because processing full-length visual sequences induces prohibitive token explosion and attention dilution. To overcome this, we introduce MemDreamer to decouple perception and reasoning, shifting long-video understanding into an agentic exploration process. As a plug-and-play framework, it incrementally streams videos to construct a Hierarchical Graph Memory, a top-down three-tier architecture for semantic abstraction, anchored by a foundational graph capturing spatiotemporal and causal relations. During inference, the reasoning model employs agentic tool-augmented retrieval, navigating hierarchies, searching nodes, and traversing logical edges via an Observation-Reason-Action loop. Experiments show MemDreamer achieves SOTA results across four mainstream benchmarks, narrowing the gap with human experts to only 3.7 points. It constrains the reasoning context window to merely 2% of full-context ingestion while delivering a 12.5 point absolute accuracy gain. Furthermore, statistical analysis uncovers a strong positive linear correlation between an VLM's performance on logic reasoning and long-video understanding benchmarks, establishing agentic capability scaling as a new paradigm for multimodal comprehension.