ChatPaper.aiChatPaper

AnyI2V : Animation de n'importe quelle image conditionnelle avec contrôle du mouvement

AnyI2V: Animating Any Conditional Image with Motion Control

July 3, 2025
papers.authors: Ziye Li, Hao Luo, Xincheng Shuai, Henghui Ding
cs.AI

papers.abstract

Les récents progrès dans la génération vidéo, en particulier avec les modèles de diffusion, ont conduit à des avancées notables dans la synthèse texte-à-vidéo (T2V) et image-à-vidéo (I2V). Cependant, des défis subsistent pour intégrer efficacement les signaux de mouvement dynamique et les contraintes spatiales flexibles. Les méthodes T2V existantes reposent généralement sur des invites textuelles, qui manquent intrinsèquement de contrôle précis sur la disposition spatiale du contenu généré. En revanche, les méthodes I2V sont limitées par leur dépendance à des images réelles, ce qui restreint l'éditabilité du contenu synthétisé. Bien que certaines méthodes intègrent ControlNet pour introduire un conditionnement basé sur l'image, elles manquent souvent de contrôle explicite du mouvement et nécessitent un entraînement coûteux en calcul. Pour surmonter ces limitations, nous proposons AnyI2V, un cadre sans entraînement qui anime n'importe quelle image conditionnelle avec des trajectoires de mouvement définies par l'utilisateur. AnyI2V prend en charge une gamme plus large de modalités comme image conditionnelle, y compris des types de données tels que les maillages et les nuages de points, qui ne sont pas supportés par ControlNet, permettant une génération vidéo plus flexible et polyvalente. De plus, il prend en charge des entrées conditionnelles mixtes et permet le transfert de style et l'édition via LoRA et des invites textuelles. Des expériences approfondies démontrent que AnyI2V offre des performances supérieures et apporte une nouvelle perspective dans la génération vidéo contrôlée spatialement et en termes de mouvement. Le code est disponible à l'adresse https://henghuiding.com/AnyI2V/.
English
Recent advancements in video generation, particularly in diffusion models, have driven notable progress in text-to-video (T2V) and image-to-video (I2V) synthesis. However, challenges remain in effectively integrating dynamic motion signals and flexible spatial constraints. Existing T2V methods typically rely on text prompts, which inherently lack precise control over the spatial layout of generated content. In contrast, I2V methods are limited by their dependence on real images, which restricts the editability of the synthesized content. Although some methods incorporate ControlNet to introduce image-based conditioning, they often lack explicit motion control and require computationally expensive training. To address these limitations, we propose AnyI2V, a training-free framework that animates any conditional images with user-defined motion trajectories. AnyI2V supports a broader range of modalities as the conditional image, including data types such as meshes and point clouds that are not supported by ControlNet, enabling more flexible and versatile video generation. Additionally, it supports mixed conditional inputs and enables style transfer and editing via LoRA and text prompts. Extensive experiments demonstrate that the proposed AnyI2V achieves superior performance and provides a new perspective in spatial- and motion-controlled video generation. Code is available at https://henghuiding.com/AnyI2V/.
PDF81July 17, 2025