WorldMM: Dynamische Multimodale Geheugenagent voor Redeneren over Lange Video's
WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning
December 2, 2025
Auteurs: Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang
cs.AI
Samenvatting
Recente vooruitgang in videogrote-taalmodellen heeft sterke capaciteiten getoond voor het begrijpen van korte clips. Het opschalen ervan naar video's van uren of dagen blijft echter zeer uitdagend vanwege beperkte contextcapaciteit en het verlies van kritieke visuele details tijdens abstractie. Bestaande, met geheugen versterkte methoden verlichten dit door gebruik te maken van tekstuele samenvattingen van videosegmenten, maar ze zijn sterk afhankelijk van tekst en slagen er niet in visueel bewijsmateriaal te benutten bij het redeneren over complexe scènes. Bovendien beperkt het ophalen van informatie uit vaste temporele schalen hun flexibiliteit verder bij het vastleggen van gebeurtenissen die variabele tijdsduren beslaan. Om dit aan te pakken, introduceren we WorldMM, een nieuwe multimodale geheugenagent die meerdere complementaire geheugens aanmaakt en raadpleegt, zowel tekstuele als visuele representaties omvattend. WorldMM bestaat uit drie soorten geheugen: episodisch geheugen indexeert feitelijke gebeurtenissen over meerdere temporele schalen, semantisch geheugen werkt continu hoogwaardige conceptuele kennis bij, en visueel geheugen bewaart gedetailleerde informatie over scènes. Tijdens inferentie selecteert een adaptieve ophaalagent iteratief de meest relevante geheugenbron en benut hij meerdere temporele granulariteiten op basis van de query, waarbij hij doorgaat totdat hij bepaalt dat voldoende informatie is verzameld. WorldMM presteert aanzienlijk beter dan bestaande baseline-methoden op vijf benchmarks voor vraagbeantwoording over lange video's, met een gemiddelde prestatieverbetering van 8,4% ten opzichte van eerdere state-of-the-art methoden, wat de effectiviteit ervan aantoont voor redeneren over lange video's.
English
Recent advances in video large language models have demonstrated strong capabilities in understanding short clips. However, scaling them to hours- or days-long videos remains highly challenging due to limited context capacity and the loss of critical visual details during abstraction. Existing memory-augmented methods mitigate this by leveraging textual summaries of video segments, yet they heavily rely on text and fail to utilize visual evidence when reasoning over complex scenes. Moreover, retrieving from fixed temporal scales further limits their flexibility in capturing events that span variable durations. To address this, we introduce WorldMM, a novel multimodal memory agent that constructs and retrieves from multiple complementary memories, encompassing both textual and visual representations. WorldMM comprises three types of memory: episodic memory indexes factual events across multiple temporal scales, semantic memory continuously updates high-level conceptual knowledge, and visual memory preserves detailed information about scenes. During inference, an adaptive retrieval agent iteratively selects the most relevant memory source and leverages multiple temporal granularities based on the query, continuing until it determines that sufficient information has been gathered. WorldMM significantly outperforms existing baselines across five long video question-answering benchmarks, achieving an average 8.4% performance gain over previous state-of-the-art methods, showing its effectiveness on long video reasoning.