ChatPaper.aiChatPaper

WorldMM: Agente di Memoria Multimodale Dinamico per il Ragionamento su Video Lunghi

WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning

December 2, 2025
Autori: Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang
cs.AI

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni per video hanno dimostrato notevoli capacità nella comprensione di clip brevi. Tuttavia, scalare tali modelli per video della durata di ore o giorni rimane estremamente impegnativo a causa della limitata capacità di contesto e della perdita di dettagli visivi critici durante l'astrazione. I metodi esistenti potenziati dalla memoria mitigano questo problema sfruttando riassunti testuali di segmenti video, ma si basano fortemente sul testo e non riescono a utilizzare evidenze visive durante il ragionamento su scene complesse. Inoltre, il recupero da scale temporali fisse limita ulteriormente la loro flessibilità nel catturare eventi che si estendono su durate variabili. Per affrontare ciò, introduciamo WorldMM, un innovativo agente di memoria multimodale che costruisce e recupera da memorie multiple complementari, comprendenti sia rappresentazioni testuali che visive. WorldMM comprende tre tipi di memoria: la memoria episodica indicizza eventi fattuali su scale temporali multiple, la memoria semantica aggiorna continuamente la conoscenza concettuale di alto livello e la memoria visiva preserva informazioni dettagliate sulle scene. Durante l'inferenza, un agente di recupero adattivo seleziona iterativamente la fonte di memoria più rilevante e sfrutta multiple granularità temporali in base alla query, continuando fino a determinare che sono state raccolte informazioni sufficienti. WorldMM supera significativamente i metodi baseline esistenti su cinque benchmark di question-answering per video lunghi, raggiungendo un miglioramento prestazionale medio dell'8,4% rispetto ai precedenti metodi state-of-the-art, dimostrando la sua efficacia nel ragionamento su video lunghi.
English
Recent advances in video large language models have demonstrated strong capabilities in understanding short clips. However, scaling them to hours- or days-long videos remains highly challenging due to limited context capacity and the loss of critical visual details during abstraction. Existing memory-augmented methods mitigate this by leveraging textual summaries of video segments, yet they heavily rely on text and fail to utilize visual evidence when reasoning over complex scenes. Moreover, retrieving from fixed temporal scales further limits their flexibility in capturing events that span variable durations. To address this, we introduce WorldMM, a novel multimodal memory agent that constructs and retrieves from multiple complementary memories, encompassing both textual and visual representations. WorldMM comprises three types of memory: episodic memory indexes factual events across multiple temporal scales, semantic memory continuously updates high-level conceptual knowledge, and visual memory preserves detailed information about scenes. During inference, an adaptive retrieval agent iteratively selects the most relevant memory source and leverages multiple temporal granularities based on the query, continuing until it determines that sufficient information has been gathered. WorldMM significantly outperforms existing baselines across five long video question-answering benchmarks, achieving an average 8.4% performance gain over previous state-of-the-art methods, showing its effectiveness on long video reasoning.
PDF191December 4, 2025