MemDreamer : Découpler la perception et le raisonnement pour la compréhension de vidéos longues via une mémoire hiérarchique de graphe et un mécanisme de récupération agentique

Résumé

Les modèles vision-langage actuels peinent à traiter des vidéos durant plusieurs heures, car le traitement de séquences visuelles complètes entraîne une explosion prohibitive du nombre de tokens et une dilution de l’attention. Pour surmonter cette difficulté, nous introduisons MemDreamer, qui dissocie perception et raisonnement en transformant la compréhension de vidéos longues en un processus d’exploration agentique. En tant que cadre plug-and-play, il diffuse les vidéos de manière incrémentale pour construire une mémoire de graphe hiérarchique — une architecture descendante à trois niveaux dédiée à l’abstraction sémantique, ancrée par un graphe fondamental capturant les relations spatiotemporelles et causales. Lors de l’inférence, le modèle de raisonnement utilise une récupération augmentée par des outils agentiques, navigant dans les hiérarchies, parcourant les nœuds et traversant les arêtes logiques via une boucle Observation-Raisonnement-Action. Les expériences montrent que MemDreamer atteint des résultats de pointe sur quatre référentiels principaux, réduisant l’écart avec les experts humains à seulement 3,7 points. Il limite la fenêtre contextuelle de raisonnement à seulement 2 % de l’ingestion de contexte complet, tout en offrant un gain absolu de précision de 12,5 points. De plus, l’analyse statistique révèle une forte corrélation linéaire positive entre les performances d’un VLM en raisonnement logique et sur des référentiels de compréhension de vidéos longues, établissant ainsi le passage à l’échelle des capacités agentiques comme nouveau paradigme pour la compréhension multimodale.

English

Current Vision-Language Models struggle with hours-long videos because processing full-length visual sequences induces prohibitive token explosion and attention dilution. To overcome this, we introduce MemDreamer to decouple perception and reasoning, shifting long-video understanding into an agentic exploration process. As a plug-and-play framework, it incrementally streams videos to construct a Hierarchical Graph Memory, a top-down three-tier architecture for semantic abstraction, anchored by a foundational graph capturing spatiotemporal and causal relations. During inference, the reasoning model employs agentic tool-augmented retrieval, navigating hierarchies, searching nodes, and traversing logical edges via an Observation-Reason-Action loop. Experiments show MemDreamer achieves SOTA results across four mainstream benchmarks, narrowing the gap with human experts to only 3.7 points. It constrains the reasoning context window to merely 2% of full-context ingestion while delivering a 12.5 point absolute accuracy gain. Furthermore, statistical analysis uncovers a strong positive linear correlation between an VLM's performance on logic reasoning and long-video understanding benchmarks, establishing agentic capability scaling as a new paradigm for multimodal comprehension.