WorldMM: Agente de Memoria Multimodal Dinámica para el Razonamiento en Videos Largos
WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning
December 2, 2025
Autores: Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran tamaño para vídeo han demostrado una gran capacidad para comprender clips cortos. Sin embargo, escalarlos a vídeos de horas o días de duración sigue siendo un gran desafío debido a la capacidad de contexto limitada y a la pérdida de detalles visuales críticos durante la abstracción. Los métodos existentes aumentados con memoria mitigan esto aprovechando resúmenes textuales de segmentos de vídeo, aunque dependen en gran medida del texto y no logran utilizar evidencia visual al razonar sobre escenas complejas. Además, la recuperación desde escalas temporales fijas limita aún más su flexibilidad para capturar eventos que abarcan duraciones variables. Para abordar esto, presentamos WorldMM, un novedoso agente de memoria multimodal que construye y recupera información de múltiples memorias complementarias, que abarcan representaciones tanto textuales como visuales. WorldMM comprende tres tipos de memoria: la memoria episódica indexa eventos factuales a través de múltiples escalas temporales, la memoria semántica actualiza continuamente conocimiento conceptual de alto nivel, y la memoria visual preserva información detallada sobre las escenas. Durante la inferencia, un agente de recuperación adaptativo selecciona iterativamente la fuente de memoria más relevante y aprovecha múltiples granularidades temporales basándose en la consulta, continuando hasta determinar que se ha reunido suficiente información. WorldMM supera significativamente a los métodos de referencia existentes en cinco benchmarks de respuesta a preguntas sobre vídeos largos, logrando una mejora media del rendimiento del 8.4% sobre los mejores métodos anteriores, lo que demuestra su eficacia en el razonamiento sobre vídeos largos.
English
Recent advances in video large language models have demonstrated strong capabilities in understanding short clips. However, scaling them to hours- or days-long videos remains highly challenging due to limited context capacity and the loss of critical visual details during abstraction. Existing memory-augmented methods mitigate this by leveraging textual summaries of video segments, yet they heavily rely on text and fail to utilize visual evidence when reasoning over complex scenes. Moreover, retrieving from fixed temporal scales further limits their flexibility in capturing events that span variable durations. To address this, we introduce WorldMM, a novel multimodal memory agent that constructs and retrieves from multiple complementary memories, encompassing both textual and visual representations. WorldMM comprises three types of memory: episodic memory indexes factual events across multiple temporal scales, semantic memory continuously updates high-level conceptual knowledge, and visual memory preserves detailed information about scenes. During inference, an adaptive retrieval agent iteratively selects the most relevant memory source and leverages multiple temporal granularities based on the query, continuing until it determines that sufficient information has been gathered. WorldMM significantly outperforms existing baselines across five long video question-answering benchmarks, achieving an average 8.4% performance gain over previous state-of-the-art methods, showing its effectiveness on long video reasoning.