AnyI2V: Animando Qualquer Imagem Condicional com Controle de Movimento
AnyI2V: Animating Any Conditional Image with Motion Control
July 3, 2025
Autores: Ziye Li, Hao Luo, Xincheng Shuai, Henghui Ding
cs.AI
Resumo
Os recentes avanços na geração de vídeo, particularmente em modelos de difusão, têm impulsionado progressos notáveis na síntese de texto para vídeo (T2V) e imagem para vídeo (I2V). No entanto, desafios permanecem na integração eficaz de sinais de movimento dinâmico e restrições espaciais flexíveis. Os métodos T2V existentes geralmente dependem de prompts de texto, que inerentemente carecem de controle preciso sobre o layout espacial do conteúdo gerado. Em contraste, os métodos I2V são limitados por sua dependência de imagens reais, o que restringe a editabilidade do conteúdo sintetizado. Embora alguns métodos incorporem o ControlNet para introduzir condicionamento baseado em imagem, eles frequentemente carecem de controle explícito de movimento e exigem treinamento computacionalmente caro. Para abordar essas limitações, propomos o AnyI2V, um framework sem necessidade de treinamento que anima qualquer imagem condicional com trajetórias de movimento definidas pelo usuário. O AnyI2V suporta uma gama mais ampla de modalidades como imagem condicional, incluindo tipos de dados como malhas e nuvens de pontos que não são suportados pelo ControlNet, permitindo uma geração de vídeo mais flexível e versátil. Além disso, ele suporta entradas condicionais mistas e permite transferência de estilo e edição via LoRA e prompts de texto. Experimentos extensivos demonstram que o AnyI2V proposto alcança desempenho superior e oferece uma nova perspectiva na geração de vídeo controlada espacialmente e em termos de movimento. O código está disponível em https://henghuiding.com/AnyI2V/.
English
Recent advancements in video generation, particularly in diffusion models,
have driven notable progress in text-to-video (T2V) and image-to-video (I2V)
synthesis. However, challenges remain in effectively integrating dynamic motion
signals and flexible spatial constraints. Existing T2V methods typically rely
on text prompts, which inherently lack precise control over the spatial layout
of generated content. In contrast, I2V methods are limited by their dependence
on real images, which restricts the editability of the synthesized content.
Although some methods incorporate ControlNet to introduce image-based
conditioning, they often lack explicit motion control and require
computationally expensive training. To address these limitations, we propose
AnyI2V, a training-free framework that animates any conditional images with
user-defined motion trajectories. AnyI2V supports a broader range of modalities
as the conditional image, including data types such as meshes and point clouds
that are not supported by ControlNet, enabling more flexible and versatile
video generation. Additionally, it supports mixed conditional inputs and
enables style transfer and editing via LoRA and text prompts. Extensive
experiments demonstrate that the proposed AnyI2V achieves superior performance
and provides a new perspective in spatial- and motion-controlled video
generation. Code is available at https://henghuiding.com/AnyI2V/.