CustomVideoX:3D参照アテンション駆動ダイナミック適応をゼロショットカスタマイズビデオ拡散トランスフォーマー
CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers
February 10, 2025
著者: D. She, Mushui Liu, Jingxuan Pang, Jin Wang, Zhen Yang, Wanggui He, Guanghao Zhang, Yi Wang, Qihan Huang, Haobin Tang, Yunlong Yu, Siming Fu
cs.AI
要旨
画像合成においては、カスタマイズされた生成は大きな進歩を遂げていますが、個人に合わせたビデオ生成は時間的な不整合と品質の低下のために依然として課題が残っています。本論文では、参照画像からの個人に合わせたビデオ生成のために、ビデオ拡散トランスフォーマーを活用する革新的なフレームワークであるCustomVideoXを紹介します。CustomVideoXは、事前学習されたビデオネットワークを活用し、LoRAパラメータを専らトレーニングして参照特徴を抽出することで、効率性と適応性の両方を確保しています。参照画像とビデオコンテンツとのシームレスな相互作用を促進するために、3D参照アテンションを提案しています。これにより、参照画像の特徴が時空間のすべてのビデオフレームと直接かつ同時に関わることが可能となります。推論時に生成されたビデオコンテンツに対する参照画像の特徴やテキストガイダンスの過度な影響を緩和するために、Time-Aware参照アテンションバイアス(TAB)戦略を実装し、異なる時間ステップで参照バイアスを動的に調整します。さらに、Entity Region-Aware Enhancement(ERAE)モジュールを導入し、主要エンティティトークンの高度に活性化された領域を調整することで、参照特徴の注入を行います。個人に合わせたビデオ生成を徹底的に評価するために、50以上のオブジェクトと100以上のプロンプトからなる新しいベンチマークであるVideoBenchを確立します。実験結果は、CustomVideoXがビデオの一貫性と品質の面で既存の手法を大幅に上回ることを示しています。
English
Customized generation has achieved significant progress in image synthesis,
yet personalized video generation remains challenging due to temporal
inconsistencies and quality degradation. In this paper, we introduce
CustomVideoX, an innovative framework leveraging the video diffusion
transformer for personalized video generation from a reference image.
CustomVideoX capitalizes on pre-trained video networks by exclusively training
the LoRA parameters to extract reference features, ensuring both efficiency and
adaptability. To facilitate seamless interaction between the reference image
and video content, we propose 3D Reference Attention, which enables direct and
simultaneous engagement of reference image features with all video frames
across spatial and temporal dimensions. To mitigate the excessive influence of
reference image features and textual guidance on generated video content during
inference, we implement the Time-Aware Reference Attention Bias (TAB) strategy,
dynamically modulating reference bias over different time steps. Additionally,
we introduce the Entity Region-Aware Enhancement (ERAE) module, aligning highly
activated regions of key entity tokens with reference feature injection by
adjusting attention bias. To thoroughly evaluate personalized video generation,
we establish a new benchmark, VideoBench, comprising over 50 objects and 100
prompts for extensive assessment. Experimental results show that CustomVideoX
significantly outperforms existing methods in terms of video consistency and
quality.Summary
AI-Generated Summary