VideoLLaMB: Langzeit-Videoverständnis mit rekurrentem Gedächtnis Brücken
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges
September 2, 2024
Autoren: Yuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte bei groß angelegten Video-Sprachmodellen ein erhebliches Potenzial für Echtzeitplanung und detaillierte Interaktionen gezeigt. Ihre hohen Rechenanforderungen und die Knappheit an annotierten Datensätzen schränken jedoch ihre Praktikabilität für akademische Forscher ein. In dieser Arbeit stellen wir VideoLLaMB vor, ein neuartiges Framework, das zeitliche Speichertoken in Brückenschichten verwendet, um die Codierung von gesamten Videosequenzen neben historischen visuellen Daten zu ermöglichen, wodurch die semantische Kontinuität erhalten bleibt und die Leistung des Modells bei verschiedenen Aufgaben verbessert wird. Dieser Ansatz umfasst wiederkehrende Speichertoken und einen SceneTilling-Algorithmus, der Videos in unabhängige semantische Einheiten segmentiert, um die semantische Integrität zu bewahren. Empirisch übertrifft VideoLLaMB signifikant bestehende Video-Sprachmodelle und zeigt eine Verbesserung um 5,5 Punkte gegenüber seinen Konkurrenten in drei VideoQA-Benchmarks und 2,06 Punkte bei egozentrischer Planung. Umfassende Ergebnisse auf dem MVBench zeigen, dass VideoLLaMB-7B deutlich bessere Ergebnisse erzielt als frühere 7B-Modelle desselben LLM. Bemerkenswerterweise behält es eine robuste Leistung wie PLLaVA bei, selbst wenn die Videolänge um das Achtfache zunimmt. Darüber hinaus bestätigen die Ergebnisse des Frame-Retrievals auf unserem spezialisierten Benchmark Needle in a Video Haystack (NIAVH) die Fähigkeit von VideoLLaMB, spezifische Frames in langen Videos genau zu identifizieren. Unser SceneTilling-Algorithmus ermöglicht auch die direkte Generierung von Streaming-Video-Untertiteln, ohne dass zusätzliches Training erforderlich ist. In Bezug auf Effizienz unterstützt VideoLLaMB, das auf 16 Frames trainiert wurde, bis zu 320 Frames auf einer einzelnen Nvidia A100 GPU mit linearer GPU-Speicheranpassung, um sowohl hohe Leistung als auch Kosteneffizienz zu gewährleisten und somit eine neue Grundlage für Video-Sprachmodelle für Langformate in akademischen und praktischen Anwendungen zu schaffen.
English
Recent advancements in large-scale video-language models have shown
significant potential for real-time planning and detailed interactions.
However, their high computational demands and the scarcity of annotated
datasets limit their practicality for academic researchers. In this work, we
introduce VideoLLaMB, a novel framework that utilizes temporal memory tokens
within bridge layers to allow for the encoding of entire video sequences
alongside historical visual data, effectively preserving semantic continuity
and enhancing model performance across various tasks. This approach includes
recurrent memory tokens and a SceneTilling algorithm, which segments videos
into independent semantic units to preserve semantic integrity. Empirically,
VideoLLaMB significantly outstrips existing video-language models,
demonstrating a 5.5 points improvement over its competitors across three
VideoQA benchmarks, and 2.06 points on egocentric planning. Comprehensive
results on the MVBench show that VideoLLaMB-7B achieves markedly better results
than previous 7B models of same LLM. Remarkably, it maintains robust
performance as PLLaVA even as video length increases up to 8 times. Besides,
the frame retrieval results on our specialized Needle in a Video Haystack
(NIAVH) benchmark, further validate VideoLLaMB's prowess in accurately
identifying specific frames within lengthy videos. Our SceneTilling algorithm
also enables the generation of streaming video captions directly, without
necessitating additional training. In terms of efficiency, VideoLLaMB, trained
on 16 frames, supports up to 320 frames on a single Nvidia A100 GPU with linear
GPU memory scaling, ensuring both high performance and cost-effectiveness,
thereby setting a new foundation for long-form video-language models in both
academic and practical applications.Summary
AI-Generated Summary