WorldMM: Agente de Memória Multimodal Dinâmica para Raciocínio em Vídeos Longos

Resumo

Os recentes avanços em modelos de linguagem grandes para vídeo demonstraram fortes capacidades na compreensão de clipes curtos. No entanto, dimensioná-los para vídeos com duração de horas ou dias permanece um grande desafio devido à capacidade limitada de contexto e à perda de detalhes visuais críticos durante a abstração. Os métodos existentes aumentados por memória mitigam isso aproveitando resumos textuais de segmentos de vídeo, mas dependem fortemente de texto e falham em utilizar evidências visuais ao raciocinar sobre cenas complexas. Além disso, a recuperação a partir de escalas temporais fixas limita ainda mais sua flexibilidade na captura de eventos que abrangem durações variáveis. Para resolver isso, introduzimos o WorldMM, um novo agente de memória multimodal que constrói e recupera de múltiplas memórias complementares, abrangendo representações textuais e visuais. O WorldMM compreende três tipos de memória: a memória episódica indexa eventos factuais em múltiplas escalas temporais, a memória semântica atualiza continuamente conhecimento conceitual de alto nível, e a memória visual preserva informações detalhadas sobre as cenas. Durante a inferência, um agente de recuperação adaptativa seleciona iterativamente a fonte de memória mais relevante e aproveita múltiplas granularidades temporais com base na consulta, continuando até determinar que informações suficientes foram reunidas. O WorldMM supera significativamente as bases de referência existentes em cinco benchmarks de questionamento e resposta em vídeos longos, alcançando um ganho médio de desempenho de 8,4% sobre os métodos state-of-the-art anteriores, demonstrando sua eficácia no raciocínio com vídeos longos.

English

Recent advances in video large language models have demonstrated strong capabilities in understanding short clips. However, scaling them to hours- or days-long videos remains highly challenging due to limited context capacity and the loss of critical visual details during abstraction. Existing memory-augmented methods mitigate this by leveraging textual summaries of video segments, yet they heavily rely on text and fail to utilize visual evidence when reasoning over complex scenes. Moreover, retrieving from fixed temporal scales further limits their flexibility in capturing events that span variable durations. To address this, we introduce WorldMM, a novel multimodal memory agent that constructs and retrieves from multiple complementary memories, encompassing both textual and visual representations. WorldMM comprises three types of memory: episodic memory indexes factual events across multiple temporal scales, semantic memory continuously updates high-level conceptual knowledge, and visual memory preserves detailed information about scenes. During inference, an adaptive retrieval agent iteratively selects the most relevant memory source and leverages multiple temporal granularities based on the query, continuing until it determines that sufficient information has been gathered. WorldMM significantly outperforms existing baselines across five long video question-answering benchmarks, achieving an average 8.4% performance gain over previous state-of-the-art methods, showing its effectiveness on long video reasoning.

WorldMM: Agente de Memória Multimodal Dinâmica para Raciocínio em Vídeos Longos

WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning

Resumo

Support