WorldMM: Dynamischer multimodaler Speicheragent für die Langzeit-Videoanalyse
WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning
December 2, 2025
papers.authors: Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang
cs.AI
papers.abstract
Jüngste Fortschritte bei Video-Großsprachmodellen haben beeindruckende Fähigkeiten im Verständnis kurzer Videoclips demonstriert. Die Skalierung auf stunden- oder tagelange Videos bleibt jedoch äußerst herausfordernd, begrenzt durch die Kontextkapazität und den Verlust kritischer visueller Details während der Abstraktion. Bestehende, speicherergänzte Methoden mildern dies durch textuelle Zusammenfassungen von Videosegmenten, verlassen sich jedoch stark auf Text und nutzen keine visuellen Beweise bei der Analyse komplexer Szenen. Darüber hinaus schränkt die Abfrage fester Zeitskalen die Flexibilität ein, Ereignisse mit variabler Dauer zu erfassen. Um dies zu adressieren, stellen wir WorldMM vor, einen neuartigen multimodalen Speicher-Agenten, der komplementäre Speicher erstellt und abruft, die sowohl textuelle als auch visuelle Repräsentationen umfassen. WorldMM besteht aus drei Speichertypen: Episodischer Speicher indiziert faktenbasierte Ereignisse über mehrere Zeitskalen, semantischer Speicher aktualisiert kontinuierlich konzeptuelles Wissen auf hoher Ebene und visueller Speicher bewahrt detaillierte Informationen über Szenen. Während der Inferenz wählt ein adaptiver Abruf-Agent iterativ die relevanteste Speicherquelle aus und nutzt mehrere zeitliche Granularitäten basierend auf der Abfrage, bis ausreichend Informationen gesammelt wurden. WorldMM übertrifft bestehende Baseline-Methoden deutlich in fünf Benchmarks zur Fragebeantwortung in langen Videos und erzielt durchschnittlich 8,4 % Leistungssteigerung gegenüber vorherigen State-of-the-Art-Methoden, was seine Wirksamkeit bei der Langzeit-Videoanalyse belegt.
English
Recent advances in video large language models have demonstrated strong capabilities in understanding short clips. However, scaling them to hours- or days-long videos remains highly challenging due to limited context capacity and the loss of critical visual details during abstraction. Existing memory-augmented methods mitigate this by leveraging textual summaries of video segments, yet they heavily rely on text and fail to utilize visual evidence when reasoning over complex scenes. Moreover, retrieving from fixed temporal scales further limits their flexibility in capturing events that span variable durations. To address this, we introduce WorldMM, a novel multimodal memory agent that constructs and retrieves from multiple complementary memories, encompassing both textual and visual representations. WorldMM comprises three types of memory: episodic memory indexes factual events across multiple temporal scales, semantic memory continuously updates high-level conceptual knowledge, and visual memory preserves detailed information about scenes. During inference, an adaptive retrieval agent iteratively selects the most relevant memory source and leverages multiple temporal granularities based on the query, continuing until it determines that sufficient information has been gathered. WorldMM significantly outperforms existing baselines across five long video question-answering benchmarks, achieving an average 8.4% performance gain over previous state-of-the-art methods, showing its effectiveness on long video reasoning.