AnyI2V: Animación de cualquier imagen condicional con control de movimiento
AnyI2V: Animating Any Conditional Image with Motion Control
July 3, 2025
Autores: Ziye Li, Hao Luo, Xincheng Shuai, Henghui Ding
cs.AI
Resumen
Los recientes avances en la generación de vídeo, particularmente en los modelos de difusión, han impulsado un progreso notable en la síntesis de texto a vídeo (T2V) y de imagen a vídeo (I2V). Sin embargo, persisten desafíos en la integración efectiva de señales de movimiento dinámico y restricciones espaciales flexibles. Los métodos T2V existentes suelen depender de indicaciones de texto, que inherentemente carecen de un control preciso sobre la disposición espacial del contenido generado. Por el contrario, los métodos I2V están limitados por su dependencia de imágenes reales, lo que restringe la capacidad de edición del contenido sintetizado. Aunque algunos métodos incorporan ControlNet para introducir condicionamiento basado en imágenes, a menudo carecen de control explícito del movimiento y requieren un entrenamiento computacionalmente costoso. Para abordar estas limitaciones, proponemos AnyI2V, un marco sin necesidad de entrenamiento que anima cualquier imagen condicional con trayectorias de movimiento definidas por el usuario. AnyI2V admite una gama más amplia de modalidades como imagen condicional, incluyendo tipos de datos como mallas y nubes de puntos que no son compatibles con ControlNet, permitiendo una generación de vídeo más flexible y versátil. Además, soporta entradas condicionales mixtas y permite la transferencia de estilo y edición mediante LoRA e indicaciones de texto. Experimentos extensivos demuestran que el AnyI2V propuesto logra un rendimiento superior y ofrece una nueva perspectiva en la generación de vídeo controlada espacial y dinámicamente. El código está disponible en https://henghuiding.com/AnyI2V/.
English
Recent advancements in video generation, particularly in diffusion models,
have driven notable progress in text-to-video (T2V) and image-to-video (I2V)
synthesis. However, challenges remain in effectively integrating dynamic motion
signals and flexible spatial constraints. Existing T2V methods typically rely
on text prompts, which inherently lack precise control over the spatial layout
of generated content. In contrast, I2V methods are limited by their dependence
on real images, which restricts the editability of the synthesized content.
Although some methods incorporate ControlNet to introduce image-based
conditioning, they often lack explicit motion control and require
computationally expensive training. To address these limitations, we propose
AnyI2V, a training-free framework that animates any conditional images with
user-defined motion trajectories. AnyI2V supports a broader range of modalities
as the conditional image, including data types such as meshes and point clouds
that are not supported by ControlNet, enabling more flexible and versatile
video generation. Additionally, it supports mixed conditional inputs and
enables style transfer and editing via LoRA and text prompts. Extensive
experiments demonstrate that the proposed AnyI2V achieves superior performance
and provides a new perspective in spatial- and motion-controlled video
generation. Code is available at https://henghuiding.com/AnyI2V/.