Phantom: クロスモーダルアライメントによる主題一貫性のある動画生成
Phantom: Subject-consistent video generation via cross-modal alignment
February 16, 2025
著者: Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu
cs.AI
要旨
ビデオ生成のための基盤モデルの継続的な発展は、様々な応用へと進化しており、被写体一貫性のあるビデオ生成はまだ探求段階にあります。これを「Subject-to-Video」と呼び、参照画像から被写体要素を抽出し、テキスト指示を通じて被写体一貫性のあるビデオを生成します。我々は、Subject-to-Videoの本質が、テキストと画像の二重モーダルプロンプトのバランスを取り、それによってテキストと視覚コンテンツを深く同時に整合させることにあると考えています。この目的のために、単一および複数の被写体参照の両方に対応する統一的なビデオ生成フレームワークであるPhantomを提案します。既存のテキストからビデオ、画像からビデオのアーキテクチャを基盤として、テキストと画像の共同注入モデルを再設計し、テキスト-画像-ビデオの三つ組データを通じてクロスモーダルアラインメントを学習させます。特に、人間の生成における被写体一貫性を強調し、既存のID保持ビデオ生成をカバーしながら、強化された利点を提供します。プロジェクトのホームページはこちらです https://phantom-video.github.io/Phantom/。
English
The continuous development of foundational models for video generation is
evolving into various applications, with subject-consistent video generation
still in the exploratory stage. We refer to this as Subject-to-Video, which
extracts subject elements from reference images and generates
subject-consistent video through textual instructions. We believe that the
essence of subject-to-video lies in balancing the dual-modal prompts of text
and image, thereby deeply and simultaneously aligning both text and visual
content. To this end, we propose Phantom, a unified video generation framework
for both single and multi-subject references. Building on existing
text-to-video and image-to-video architectures, we redesign the joint
text-image injection model and drive it to learn cross-modal alignment via
text-image-video triplet data. In particular, we emphasize subject consistency
in human generation, covering existing ID-preserving video generation while
offering enhanced advantages. The project homepage is here
https://phantom-video.github.io/Phantom/.Summary
AI-Generated Summary