WorldMM: Динамический мультимодальный агент памяти для анализа длинных видео
WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning
December 2, 2025
Авторы: Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang
cs.AI
Аннотация
Последние достижения в области больших языковых моделей для видео продемонстрировали высокие способности в понимании коротких видеороликов. Однако масштабирование их на видео продолжительностью в часы или дни остается крайне сложной задачей из-за ограниченной емкости контекста и потери критически важных визуальных деталей в процессе абстрагирования. Существующие методы с расширенной памятью смягчают эту проблему, используя текстовые сводки сегментов видео, однако они сильно зависят от текста и не способны задействовать визуальные свидетельства при анализе сложных сцен. Более того, поиск по фиксированным временным масштабам дополнительно ограничивает их гибкость в захвате событий, длящихся переменное время. Для решения этих проблем мы представляем WorldMM — новый мультимодальный агент памяти, который создает несколько взаимодополняющих видов памяти и осуществляет поиск по ним, включая как текстовые, так и визуальные представления. WorldMM состоит из трех типов памяти: эпизодическая память индексирует фактические события в нескольких временных масштабах, семантическая память постоянно обновляет концептуальные знания высокого уровня, а визуальная память сохраняет детальную информацию о сценах. На этапе вывода адаптивный агент поиска итеративно выбирает наиболее релевантный источник памяти и использует несколько уровней временной детализации в зависимости от запроса, продолжая процесс до тех пор, пока не будет собрано достаточно информации. WorldMM значительно превосходит существующие базовые методы на пяти тестовых наборах для вопросно-ответных систем по длинным видео, демонстрируя прирост производительности в среднем на 8,4% по сравнению с предыдущими передовыми методами, что подтверждает его эффективность в решении задач анализа длинных видео.
English
Recent advances in video large language models have demonstrated strong capabilities in understanding short clips. However, scaling them to hours- or days-long videos remains highly challenging due to limited context capacity and the loss of critical visual details during abstraction. Existing memory-augmented methods mitigate this by leveraging textual summaries of video segments, yet they heavily rely on text and fail to utilize visual evidence when reasoning over complex scenes. Moreover, retrieving from fixed temporal scales further limits their flexibility in capturing events that span variable durations. To address this, we introduce WorldMM, a novel multimodal memory agent that constructs and retrieves from multiple complementary memories, encompassing both textual and visual representations. WorldMM comprises three types of memory: episodic memory indexes factual events across multiple temporal scales, semantic memory continuously updates high-level conceptual knowledge, and visual memory preserves detailed information about scenes. During inference, an adaptive retrieval agent iteratively selects the most relevant memory source and leverages multiple temporal granularities based on the query, continuing until it determines that sufficient information has been gathered. WorldMM significantly outperforms existing baselines across five long video question-answering benchmarks, achieving an average 8.4% performance gain over previous state-of-the-art methods, showing its effectiveness on long video reasoning.