AnyI2V: Animación de cualquier imagen condicional con control de movimiento

Resumen

Los recientes avances en la generación de vídeo, particularmente en los modelos de difusión, han impulsado un progreso notable en la síntesis de texto a vídeo (T2V) y de imagen a vídeo (I2V). Sin embargo, persisten desafíos en la integración efectiva de señales de movimiento dinámico y restricciones espaciales flexibles. Los métodos T2V existentes suelen depender de indicaciones de texto, que inherentemente carecen de un control preciso sobre la disposición espacial del contenido generado. Por el contrario, los métodos I2V están limitados por su dependencia de imágenes reales, lo que restringe la capacidad de edición del contenido sintetizado. Aunque algunos métodos incorporan ControlNet para introducir condicionamiento basado en imágenes, a menudo carecen de control explícito del movimiento y requieren un entrenamiento computacionalmente costoso. Para abordar estas limitaciones, proponemos AnyI2V, un marco sin necesidad de entrenamiento que anima cualquier imagen condicional con trayectorias de movimiento definidas por el usuario. AnyI2V admite una gama más amplia de modalidades como imagen condicional, incluyendo tipos de datos como mallas y nubes de puntos que no son compatibles con ControlNet, permitiendo una generación de vídeo más flexible y versátil. Además, soporta entradas condicionales mixtas y permite la transferencia de estilo y edición mediante LoRA e indicaciones de texto. Experimentos extensivos demuestran que el AnyI2V propuesto logra un rendimiento superior y ofrece una nueva perspectiva en la generación de vídeo controlada espacial y dinámicamente. El código está disponible en https://henghuiding.com/AnyI2V/.

English

Recent advancements in video generation, particularly in diffusion models, have driven notable progress in text-to-video (T2V) and image-to-video (I2V) synthesis. However, challenges remain in effectively integrating dynamic motion signals and flexible spatial constraints. Existing T2V methods typically rely on text prompts, which inherently lack precise control over the spatial layout of generated content. In contrast, I2V methods are limited by their dependence on real images, which restricts the editability of the synthesized content. Although some methods incorporate ControlNet to introduce image-based conditioning, they often lack explicit motion control and require computationally expensive training. To address these limitations, we propose AnyI2V, a training-free framework that animates any conditional images with user-defined motion trajectories. AnyI2V supports a broader range of modalities as the conditional image, including data types such as meshes and point clouds that are not supported by ControlNet, enabling more flexible and versatile video generation. Additionally, it supports mixed conditional inputs and enables style transfer and editing via LoRA and text prompts. Extensive experiments demonstrate that the proposed AnyI2V achieves superior performance and provides a new perspective in spatial- and motion-controlled video generation. Code is available at https://henghuiding.com/AnyI2V/.

AnyI2V: Animación de cualquier imagen condicional con control de movimiento

AnyI2V: Animating Any Conditional Image with Motion Control

Resumen

Support