ChatPaper.aiChatPaper

WorldMM : Agent de mémoire multimodale dynamique pour le raisonnement sur vidéos longues

WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning

December 2, 2025
papers.authors: Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang
cs.AI

papers.abstract

Les progrès récents des grands modèles linguistiques vidéo ont démontré d'importantes capacités de compréhension de clips courts. Cependant, leur passage à l'échelle pour traiter des vidéos de plusieurs heures ou jours reste très difficile en raison de la capacité contextuelle limitée et de la perte de détails visuels critiques lors de l'abstraction. Les méthodes existantes augmentées par mémoire atténuent ce problème en utilisant des résumés textuels de segments vidéo, mais elles reposent fortement sur le texte et ne parviennent pas à exploiter les preuves visuelles lors du raisonnement sur des scènes complexes. De plus, l'interrogation à partir d'échelles temporelles fixes limite davantage leur flexibilité pour capturer des événements de durées variables. Pour résoudre cela, nous présentons WorldMM, un nouvel agent de mémoire multimodale qui construit et interroge plusieurs mémoires complémentaires, incluant à la fois des représentations textuelles et visuelles. WorldMM comprend trois types de mémoire : la mémoire épisodique indexe les événements factuels à travers plusieurs échelles temporelles, la mémoire sémantique met continuellement à jour les connaissances conceptuelles de haut niveau, et la mémoire visuelle conserve les informations détaillées sur les scènes. Lors de l'inférence, un agent d'interrogation adaptative sélectionne itérativement la source mémorielle la plus pertinente et exploite de multiples granularités temporelles en fonction de la requête, jusqu'à ce qu'il estime avoir recueilli suffisamment d'informations. WorldMM surpasse significativement les méthodes de référence sur cinq benchmarks de question-réponse sur vidéos longues, obtenant un gain de performance moyen de 8,4 % par rapport aux méthodes état de l'art précédentes, démontrant son efficacité pour le raisonnement sur vidéos longues.
English
Recent advances in video large language models have demonstrated strong capabilities in understanding short clips. However, scaling them to hours- or days-long videos remains highly challenging due to limited context capacity and the loss of critical visual details during abstraction. Existing memory-augmented methods mitigate this by leveraging textual summaries of video segments, yet they heavily rely on text and fail to utilize visual evidence when reasoning over complex scenes. Moreover, retrieving from fixed temporal scales further limits their flexibility in capturing events that span variable durations. To address this, we introduce WorldMM, a novel multimodal memory agent that constructs and retrieves from multiple complementary memories, encompassing both textual and visual representations. WorldMM comprises three types of memory: episodic memory indexes factual events across multiple temporal scales, semantic memory continuously updates high-level conceptual knowledge, and visual memory preserves detailed information about scenes. During inference, an adaptive retrieval agent iteratively selects the most relevant memory source and leverages multiple temporal granularities based on the query, continuing until it determines that sufficient information has been gathered. WorldMM significantly outperforms existing baselines across five long video question-answering benchmarks, achieving an average 8.4% performance gain over previous state-of-the-art methods, showing its effectiveness on long video reasoning.
PDF191December 4, 2025