ChatPaper.aiChatPaper

VideoLLaMB: 再帰メモリを用いた長文脈ビデオ理解

VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

September 2, 2024
著者: Yuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng
cs.AI

要旨

最近の大規模ビデオ言語モデルの進歩は、リアルタイムの計画と詳細な対話において著しい潜在能力を示しています。しかしながら、高い計算要求とアノテーション付きデータセットの不足が、これらのモデルを学術研究者にとって実用的に制限しています。本研究では、VideoLLaMBという新しいフレームワークを紹介し、ブリッジ層内で時間的メモリトークンを活用することで、ビデオシーケンス全体と歴史的視覚データのエンコーディングを可能にし、意味の連続性を保持し、様々なタスクでモデルのパフォーマンスを向上させます。この手法には、再帰メモリトークンとSceneTillingアルゴリズムが含まれており、ビデオを独立した意味的ユニットにセグメント化して意味の整合性を保持します。実証的に、VideoLLaMBは既存のビデオ言語モデルを大きく凌駕し、3つのVideoQAベンチマークで競合モデルに比べて5.5ポイントの改善を示し、エゴセントリックな計画では2.06ポイントの向上を達成します。MVBenchでの包括的な結果は、VideoLLaMB-7Bが同じLLMの以前の7Bモデルよりもはるかに優れた結果を達成していることを示しています。驚くべきことに、ビデオの長さが8倍に増加してもPLLAVAと同様に堅牢なパフォーマンスを維持します。また、専門的なNeedle in a Video Haystack(NIAVH)ベンチマークでのフレーム検索結果は、VideoLLaMBが長いビデオ内の特定のフレームを正確に特定する能力をさらに裏付けています。SceneTillingアルゴリズムは、追加のトレーニングを必要とせずにストリーミングビデオキャプションの生成を可能にしました。効率面では、16フレームでトレーニングされたVideoLLaMBは、Nvidia A100 GPU1台で最大320フレームをサポートし、GPUメモリの線形スケーリングを実現して、高いパフォーマンスとコスト効率を両立させ、学術および実用アプリケーションにおける長尺ビデオ言語モデルの新たな基盤を築きました。
English
Recent advancements in large-scale video-language models have shown significant potential for real-time planning and detailed interactions. However, their high computational demands and the scarcity of annotated datasets limit their practicality for academic researchers. In this work, we introduce VideoLLaMB, a novel framework that utilizes temporal memory tokens within bridge layers to allow for the encoding of entire video sequences alongside historical visual data, effectively preserving semantic continuity and enhancing model performance across various tasks. This approach includes recurrent memory tokens and a SceneTilling algorithm, which segments videos into independent semantic units to preserve semantic integrity. Empirically, VideoLLaMB significantly outstrips existing video-language models, demonstrating a 5.5 points improvement over its competitors across three VideoQA benchmarks, and 2.06 points on egocentric planning. Comprehensive results on the MVBench show that VideoLLaMB-7B achieves markedly better results than previous 7B models of same LLM. Remarkably, it maintains robust performance as PLLaVA even as video length increases up to 8 times. Besides, the frame retrieval results on our specialized Needle in a Video Haystack (NIAVH) benchmark, further validate VideoLLaMB's prowess in accurately identifying specific frames within lengthy videos. Our SceneTilling algorithm also enables the generation of streaming video captions directly, without necessitating additional training. In terms of efficiency, VideoLLaMB, trained on 16 frames, supports up to 320 frames on a single Nvidia A100 GPU with linear GPU memory scaling, ensuring both high performance and cost-effectiveness, thereby setting a new foundation for long-form video-language models in both academic and practical applications.

Summary

AI-Generated Summary

PDF286November 16, 2024