Divot: 拡散による映像トークナイザーの理解と生成の強化
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation
December 5, 2024
著者: Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan
cs.AI
要旨
近年、大規模言語モデル(LLM)内で画像の理解と生成を統合することに対する興味が急速に高まっています。この盛んな関心から、この統合をビデオに拡張する可能性を探ることになりました。中心的な課題は、LLMの表現を得るためにビデオの空間的特性と時間的ダイナミクスの両方を捉える汎用ビデオトークナイザを開発することであり、これらの表現はさらにリアルなビデオクリップにデコードされてビデオ生成を可能にします。本研究では、自己教師付きビデオ表現学習のために拡散プロセスを活用するDiffusion-Powered Video TokenizerであるDivotを紹介します。ビデオのディフュージョンモデルが、ビデオトークナイザの特徴を条件としてビデオクリップを効果的にノイズ除去できる場合、トークナイザは堅牢な空間的および時間的情報を成功裏に捉えていると考えられます。さらに、ビデオディフュージョンモデルは、ビデオの表現からビデオをデコードするデトークナイザとして機能します。Divotトークナイザを基盤として、Divot-Vicunaを提案し、ガウス混合モデルを用いてDivot特徴の連続値分布をモデリングすることで、ビデオからテキストへの自己回帰とテキストからビデオへの生成を行います。実験結果は、事前にトレーニングされたLLMと統合された拡散ベースのビデオトークナイザが、さまざまなビデオ理解と生成のベンチマークで競争力のあるパフォーマンスを達成することを示しています。指示調整されたDivot-Vicunaは、ビデオストーリーテリングにおいても優れており、交互に語られる物語とそれに対応するビデオを生成します。
English
In recent years, there has been a significant surge of interest in unifying
image comprehension and generation within Large Language Models (LLMs). This
growing interest has prompted us to explore extending this unification to
videos. The core challenge lies in developing a versatile video tokenizer that
captures both the spatial characteristics and temporal dynamics of videos to
obtain representations for LLMs, and the representations can be further decoded
into realistic video clips to enable video generation. In this work, we
introduce Divot, a Diffusion-Powered Video Tokenizer, which leverages the
diffusion process for self-supervised video representation learning. We posit
that if a video diffusion model can effectively de-noise video clips by taking
the features of a video tokenizer as the condition, then the tokenizer has
successfully captured robust spatial and temporal information. Additionally,
the video diffusion model inherently functions as a de-tokenizer, decoding
videos from their representations. Building upon the Divot tokenizer, we
present Divot-Vicuna through video-to-text autoregression and text-to-video
generation by modeling the distributions of continuous-valued Divot features
with a Gaussian Mixture Model. Experimental results demonstrate that our
diffusion-based video tokenizer, when integrated with a pre-trained LLM,
achieves competitive performance across various video comprehension and
generation benchmarks. The instruction tuned Divot-Vicuna also excels in video
storytelling, generating interleaved narratives and corresponding videos.Summary
AI-Generated Summary