ChatPaper.aiChatPaper

Mimir: 正確なテキスト理解のためのビデオ拡散モデルの改善

Mimir: Improving Video Diffusion Models for Precise Text Understanding

December 4, 2024
著者: Shuai Tan, Biao Gong, Yutong Feng, Kecheng Zheng, Dandan Zheng, Shuwei Shi, Yujun Shen, Jingdong Chen, Ming Yang
cs.AI

要旨

テキストは、物語の性質から、ビデオ生成における主要な制御信号として機能します。テキストの記述をビデオクリップにレンダリングするために、現在のビデオ拡散モデルはテキストエンコーダから特徴を借用していますが、テキストの理解が限定されているという課題に直面しています。大規模言語モデル(LLMs)の最近の成功は、デコーダのみのトランスフォーマーの力を示しており、テキストからビデオ(T2V)生成において、優れたスケーラビリティによる正確なテキスト理解、入力テキストを超えた想像力による次のトークン予測の有効性、および指示チューニングを通じたユーザーの関心を優先する柔軟性という3つの明確な利点を提供しています。ただし、2つの異なるテキストモデリングパラダイムから生じる特徴分布のギャップは、確立されたT2VモデルでのLLMsの直接利用を妨げています。この研究は、Mimirという、テキストエンコーダとLLMsの出力を調和させるために慎重に設計されたトークンフューザーを備えたエンドツーエンドのトレーニングフレームワークで、この課題に取り組んでいます。この設計により、T2Vモデルは学習されたビデオ事前知識を十分に活用しながら、LLMsのテキスト関連能力を最大限に活用することができます。包括的な定量的および定性的結果は、Mimirが高品質のビデオを生成し、特に短いキャプションの処理や移動するモーションの管理において優れたテキスト理解を示す効果を実証しています。プロジェクトページ:https://lucaria-academy.github.io/Mimir/
English
Text serves as the key control signal in video generation due to its narrative nature. To render text descriptions into video clips, current video diffusion models borrow features from text encoders yet struggle with limited text comprehension. The recent success of large language models (LLMs) showcases the power of decoder-only transformers, which offers three clear benefits for text-to-video (T2V) generation, namely, precise text understanding resulting from the superior scalability, imagination beyond the input text enabled by next token prediction, and flexibility to prioritize user interests through instruction tuning. Nevertheless, the feature distribution gap emerging from the two different text modeling paradigms hinders the direct use of LLMs in established T2V models. This work addresses this challenge with Mimir, an end-to-end training framework featuring a carefully tailored token fuser to harmonize the outputs from text encoders and LLMs. Such a design allows the T2V model to fully leverage learned video priors while capitalizing on the text-related capability of LLMs. Extensive quantitative and qualitative results demonstrate the effectiveness of Mimir in generating high-quality videos with excellent text comprehension, especially when processing short captions and managing shifting motions. Project page: https://lucaria-academy.github.io/Mimir/

Summary

AI-Generated Summary

PDF122December 5, 2024