ChatPaper.aiChatPaper

AnyI2V: Animazione di qualsiasi immagine condizionale con controllo del movimento

AnyI2V: Animating Any Conditional Image with Motion Control

July 3, 2025
Autori: Ziye Li, Hao Luo, Xincheng Shuai, Henghui Ding
cs.AI

Abstract

I recenti progressi nella generazione video, in particolare nei modelli di diffusione, hanno portato a notevoli avanzamenti nella sintesi da testo a video (T2V) e da immagine a video (I2V). Tuttavia, permangono sfide nell'integrazione efficace di segnali di movimento dinamico e vincoli spaziali flessibili. I metodi T2V esistenti si basano tipicamente su prompt testuali, che intrinsecamente mancano di un controllo preciso sul layout spaziale del contenuto generato. Al contrario, i metodi I2V sono limitati dalla loro dipendenza da immagini reali, il che restringe l'editabilità del contenuto sintetizzato. Sebbene alcuni metodi incorporino ControlNet per introdurre condizionamenti basati su immagini, spesso mancano di un controllo esplicito del movimento e richiedono un addestramento computazionalmente costoso. Per affrontare queste limitazioni, proponiamo AnyI2V, un framework senza addestramento che anima qualsiasi immagine condizionale con traiettorie di movimento definite dall'utente. AnyI2V supporta una gamma più ampia di modalità come immagine condizionale, inclusi tipi di dati come mesh e nuvole di punti non supportati da ControlNet, consentendo una generazione video più flessibile e versatile. Inoltre, supporta input condizionali misti e permette il trasferimento di stile e l'editing tramite LoRA e prompt testuali. Esperimenti estensivi dimostrano che il proposto AnyI2V raggiunge prestazioni superiori e offre una nuova prospettiva nella generazione video controllata spazialmente e nel movimento. Il codice è disponibile all'indirizzo https://henghuiding.com/AnyI2V/.
English
Recent advancements in video generation, particularly in diffusion models, have driven notable progress in text-to-video (T2V) and image-to-video (I2V) synthesis. However, challenges remain in effectively integrating dynamic motion signals and flexible spatial constraints. Existing T2V methods typically rely on text prompts, which inherently lack precise control over the spatial layout of generated content. In contrast, I2V methods are limited by their dependence on real images, which restricts the editability of the synthesized content. Although some methods incorporate ControlNet to introduce image-based conditioning, they often lack explicit motion control and require computationally expensive training. To address these limitations, we propose AnyI2V, a training-free framework that animates any conditional images with user-defined motion trajectories. AnyI2V supports a broader range of modalities as the conditional image, including data types such as meshes and point clouds that are not supported by ControlNet, enabling more flexible and versatile video generation. Additionally, it supports mixed conditional inputs and enables style transfer and editing via LoRA and text prompts. Extensive experiments demonstrate that the proposed AnyI2V achieves superior performance and provides a new perspective in spatial- and motion-controlled video generation. Code is available at https://henghuiding.com/AnyI2V/.
PDF121July 17, 2025