AnyI2V: モーション制御による任意の条件付き画像のアニメーション化
AnyI2V: Animating Any Conditional Image with Motion Control
July 3, 2025
著者: Ziye Li, Hao Luo, Xincheng Shuai, Henghui Ding
cs.AI
要旨
最近のビデオ生成技術、特に拡散モデルにおける進展は、テキストからビデオ(T2V)および画像からビデオ(I2V)合成において顕著な進歩をもたらしました。しかし、動的なモーション信号と柔軟な空間的制約を効果的に統合する上で課題が残っています。既存のT2V手法は通常、テキストプロンプトに依存しており、生成されるコンテンツの空間的レイアウトを精密に制御することが本質的に困難です。一方、I2V手法は実画像に依存するため、合成されたコンテンツの編集可能性が制限されています。ControlNetを導入して画像ベースの条件付けを行う手法も存在しますが、明示的なモーション制御が欠如しており、計算コストの高いトレーニングを必要とします。これらの制限を解決するため、我々はAnyI2Vを提案します。これは、ユーザー定義のモーショントラジェクトリを用いて任意の条件付き画像をアニメーション化するトレーニング不要のフレームワークです。AnyI2Vは、ControlNetではサポートされていないメッシュやポイントクラウドなどのデータタイプを含む、より広範なモダリティを条件付き画像としてサポートし、より柔軟で多用途なビデオ生成を可能にします。さらに、混合条件付き入力をサポートし、LoRAやテキストプロンプトを介したスタイル転送と編集を可能にします。大規模な実験により、提案されたAnyI2Vが優れた性能を達成し、空間的およびモーション制御されたビデオ生成において新たな視点を提供することが実証されました。コードはhttps://henghuiding.com/AnyI2V/で公開されています。
English
Recent advancements in video generation, particularly in diffusion models,
have driven notable progress in text-to-video (T2V) and image-to-video (I2V)
synthesis. However, challenges remain in effectively integrating dynamic motion
signals and flexible spatial constraints. Existing T2V methods typically rely
on text prompts, which inherently lack precise control over the spatial layout
of generated content. In contrast, I2V methods are limited by their dependence
on real images, which restricts the editability of the synthesized content.
Although some methods incorporate ControlNet to introduce image-based
conditioning, they often lack explicit motion control and require
computationally expensive training. To address these limitations, we propose
AnyI2V, a training-free framework that animates any conditional images with
user-defined motion trajectories. AnyI2V supports a broader range of modalities
as the conditional image, including data types such as meshes and point clouds
that are not supported by ControlNet, enabling more flexible and versatile
video generation. Additionally, it supports mixed conditional inputs and
enables style transfer and editing via LoRA and text prompts. Extensive
experiments demonstrate that the proposed AnyI2V achieves superior performance
and provides a new perspective in spatial- and motion-controlled video
generation. Code is available at https://henghuiding.com/AnyI2V/.