ChatPaper.aiChatPaper

VideoLLaMB: Langetermijn Videobegrip met Recursief Geheugen Bruggen

VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

September 2, 2024
Auteurs: Yuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng
cs.AI

Samenvatting

Recente vooruitgang in grootschalige video-taalmodellen heeft aanzienlijk potentieel getoond voor real-time planning en gedetailleerde interacties. Hun hoge rekenkundige eisen en de schaarste aan geannoteerde datasets beperken echter hun praktische toepasbaarheid voor academische onderzoekers. In dit werk introduceren we VideoLLaMB, een nieuw framework dat gebruikmaakt van tijdelijke geheugentokens binnen bruglagen om de codering van volledige videosequenties naast historische visuele gegevens mogelijk te maken, waardoor semantische continuïteit effectief behouden blijft en de modelprestaties over diverse taken worden verbeterd. Deze aanpak omvat recurrente geheugentokens en een SceneTilling-algoritme, dat video's opdeelt in onafhankelijke semantische eenheden om semantische integriteit te behouden. Empirisch gezien overtreft VideoLLaMB bestaande video-taalmodellen aanzienlijk, met een verbetering van 5,5 punten ten opzichte van zijn concurrenten over drie VideoQA-benchmarks, en 2,06 punten op egocentrische planning. Uitgebreide resultaten op de MVBench laten zien dat VideoLLaMB-7B duidelijk betere resultaten behaalt dan eerdere 7B-modellen van hetzelfde LLM. Opmerkelijk is dat het robuuste prestaties behoudt als PLLaVA, zelfs wanneer de videolengte tot 8 keer toeneemt. Daarnaast valideren de frameretrievalresultaten op onze gespecialiseerde Needle in a Video Haystack (NIAVH)-benchmark verder de vaardigheid van VideoLLaMB om specifieke frames binnen lange video's nauwkeurig te identificeren. Ons SceneTilling-algoritme maakt ook de directe generatie van streaming videobijschriften mogelijk, zonder dat aanvullende training nodig is. Wat efficiëntie betreft, ondersteunt VideoLLaMB, getraind op 16 frames, tot 320 frames op een enkele Nvidia A100 GPU met lineaire GPU-geheugenschaalbaarheid, waardoor zowel hoge prestaties als kosteneffectiviteit worden gegarandeerd. Hiermee wordt een nieuwe basis gelegd voor langdurige video-taalmodellen in zowel academische als praktische toepassingen.
English
Recent advancements in large-scale video-language models have shown significant potential for real-time planning and detailed interactions. However, their high computational demands and the scarcity of annotated datasets limit their practicality for academic researchers. In this work, we introduce VideoLLaMB, a novel framework that utilizes temporal memory tokens within bridge layers to allow for the encoding of entire video sequences alongside historical visual data, effectively preserving semantic continuity and enhancing model performance across various tasks. This approach includes recurrent memory tokens and a SceneTilling algorithm, which segments videos into independent semantic units to preserve semantic integrity. Empirically, VideoLLaMB significantly outstrips existing video-language models, demonstrating a 5.5 points improvement over its competitors across three VideoQA benchmarks, and 2.06 points on egocentric planning. Comprehensive results on the MVBench show that VideoLLaMB-7B achieves markedly better results than previous 7B models of same LLM. Remarkably, it maintains robust performance as PLLaVA even as video length increases up to 8 times. Besides, the frame retrieval results on our specialized Needle in a Video Haystack (NIAVH) benchmark, further validate VideoLLaMB's prowess in accurately identifying specific frames within lengthy videos. Our SceneTilling algorithm also enables the generation of streaming video captions directly, without necessitating additional training. In terms of efficiency, VideoLLaMB, trained on 16 frames, supports up to 320 frames on a single Nvidia A100 GPU with linear GPU memory scaling, ensuring both high performance and cost-effectiveness, thereby setting a new foundation for long-form video-language models in both academic and practical applications.

Summary

AI-Generated Summary

PDF286November 16, 2024