AnyI2V: Animando Qualquer Imagem Condicional com Controle de Movimento

Resumo

Os recentes avanços na geração de vídeo, particularmente em modelos de difusão, têm impulsionado progressos notáveis na síntese de texto para vídeo (T2V) e imagem para vídeo (I2V). No entanto, desafios permanecem na integração eficaz de sinais de movimento dinâmico e restrições espaciais flexíveis. Os métodos T2V existentes geralmente dependem de prompts de texto, que inerentemente carecem de controle preciso sobre o layout espacial do conteúdo gerado. Em contraste, os métodos I2V são limitados por sua dependência de imagens reais, o que restringe a editabilidade do conteúdo sintetizado. Embora alguns métodos incorporem o ControlNet para introduzir condicionamento baseado em imagem, eles frequentemente carecem de controle explícito de movimento e exigem treinamento computacionalmente caro. Para abordar essas limitações, propomos o AnyI2V, um framework sem necessidade de treinamento que anima qualquer imagem condicional com trajetórias de movimento definidas pelo usuário. O AnyI2V suporta uma gama mais ampla de modalidades como imagem condicional, incluindo tipos de dados como malhas e nuvens de pontos que não são suportados pelo ControlNet, permitindo uma geração de vídeo mais flexível e versátil. Além disso, ele suporta entradas condicionais mistas e permite transferência de estilo e edição via LoRA e prompts de texto. Experimentos extensivos demonstram que o AnyI2V proposto alcança desempenho superior e oferece uma nova perspectiva na geração de vídeo controlada espacialmente e em termos de movimento. O código está disponível em https://henghuiding.com/AnyI2V/.

English

Recent advancements in video generation, particularly in diffusion models, have driven notable progress in text-to-video (T2V) and image-to-video (I2V) synthesis. However, challenges remain in effectively integrating dynamic motion signals and flexible spatial constraints. Existing T2V methods typically rely on text prompts, which inherently lack precise control over the spatial layout of generated content. In contrast, I2V methods are limited by their dependence on real images, which restricts the editability of the synthesized content. Although some methods incorporate ControlNet to introduce image-based conditioning, they often lack explicit motion control and require computationally expensive training. To address these limitations, we propose AnyI2V, a training-free framework that animates any conditional images with user-defined motion trajectories. AnyI2V supports a broader range of modalities as the conditional image, including data types such as meshes and point clouds that are not supported by ControlNet, enabling more flexible and versatile video generation. Additionally, it supports mixed conditional inputs and enables style transfer and editing via LoRA and text prompts. Extensive experiments demonstrate that the proposed AnyI2V achieves superior performance and provides a new perspective in spatial- and motion-controlled video generation. Code is available at https://henghuiding.com/AnyI2V/.

AnyI2V: Animando Qualquer Imagem Condicional com Controle de Movimento

AnyI2V: Animating Any Conditional Image with Motion Control

Resumo

Support