CamCo: カメラ制御可能な3D一貫性を保つ画像から動画生成
CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation
June 4, 2024
著者: Dejia Xu, Weili Nie, Chao Liu, Sifei Liu, Jan Kautz, Zhangyang Wang, Arash Vahdat
cs.AI
要旨
最近、ビデオ拡散モデルが高品質なビデオコンテンツ作成のための表現力豊かな生成ツールとして登場し、一般ユーザーにも容易に利用可能となっています。しかし、これらのモデルはビデオ生成におけるカメラポーズの精密な制御を提供しないことが多く、映画的な表現やユーザーコントロールが制限されています。この問題を解決するため、我々はCamCoを導入し、画像からビデオ生成における細かいカメラポーズ制御を可能にします。事前学習済みの画像からビデオ生成モデルに、Pl\"ucker座標を用いて正確にパラメータ化されたカメラポーズ入力を装備します。生成されるビデオの3D一貫性を向上させるため、各アテンションブロックにエピポーラ制約を特徴マップに適用するエピポーラアテンションモジュールを統合します。さらに、CamCoを構造から運動を推定するアルゴリズムを用いてカメラポーズを推定した実世界のビデオでファインチューニングし、物体の動きをより良く合成します。実験結果から、CamCoは従来のモデルと比較して3D一貫性とカメラ制御能力を大幅に向上させ、説得力のある物体の動きを効果的に生成することが示されています。プロジェクトページ: https://ir1d.github.io/CamCo/
English
Recently video diffusion models have emerged as expressive generative tools
for high-quality video content creation readily available to general users.
However, these models often do not offer precise control over camera poses for
video generation, limiting the expression of cinematic language and user
control. To address this issue, we introduce CamCo, which allows fine-grained
Camera pose Control for image-to-video generation. We equip a pre-trained
image-to-video generator with accurately parameterized camera pose input using
Pl\"ucker coordinates. To enhance 3D consistency in the videos produced, we
integrate an epipolar attention module in each attention block that enforces
epipolar constraints to the feature maps. Additionally, we fine-tune CamCo on
real-world videos with camera poses estimated through structure-from-motion
algorithms to better synthesize object motion. Our experiments show that CamCo
significantly improves 3D consistency and camera control capabilities compared
to previous models while effectively generating plausible object motion.
Project page: https://ir1d.github.io/CamCo/Summary
AI-Generated Summary