ChatPaper.aiChatPaper

AnyI2V: Elke Voorwaardelijke Afbeelding Animeren met Bewegingscontrole

AnyI2V: Animating Any Conditional Image with Motion Control

July 3, 2025
Auteurs: Ziye Li, Hao Luo, Xincheng Shuai, Henghui Ding
cs.AI

Samenvatting

Recente vooruitgang in videogeneratie, met name in diffusiemodellen, heeft aanzienlijke vooruitgang geboekt in tekst-naar-video (T2V) en beeld-naar-video (I2V) synthese. Er blijven echter uitdagingen bestaan bij het effectief integreren van dynamische bewegingssignalen en flexibele ruimtelijke beperkingen. Bestaande T2V-methoden vertrouwen doorgaans op tekstprompts, die inherent geen precieze controle bieden over de ruimtelijke lay-out van gegenereerde inhoud. Daarentegen worden I2V-methoden beperkt door hun afhankelijkheid van echte beelden, wat de bewerkbaarheid van de gesynthetiseerde inhoud beperkt. Hoewel sommige methoden ControlNet integreren om beeldgebaseerde conditionering te introduceren, ontbreekt het hen vaak aan expliciete bewegingscontrole en vereisen ze rekenintensieve training. Om deze beperkingen aan te pakken, stellen we AnyI2V voor, een trainingsvrij framework dat elke conditionele afbeelding animeert met door de gebruiker gedefinieerde bewegingsbanen. AnyI2V ondersteunt een breder scala aan modaliteiten als de conditionele afbeelding, inclusief gegevenstypen zoals meshes en puntenwolken die niet worden ondersteund door ControlNet, waardoor flexibelere en veelzijdigere videogeneratie mogelijk wordt. Daarnaast ondersteunt het gemengde conditionele invoer en maakt het stijloverdracht en bewerking mogelijk via LoRA en tekstprompts. Uitgebreide experimenten tonen aan dat de voorgestelde AnyI2V superieure prestaties bereikt en een nieuw perspectief biedt in ruimtelijk- en bewegingsgecontroleerde videogeneratie. Code is beschikbaar op https://henghuiding.com/AnyI2V/.
English
Recent advancements in video generation, particularly in diffusion models, have driven notable progress in text-to-video (T2V) and image-to-video (I2V) synthesis. However, challenges remain in effectively integrating dynamic motion signals and flexible spatial constraints. Existing T2V methods typically rely on text prompts, which inherently lack precise control over the spatial layout of generated content. In contrast, I2V methods are limited by their dependence on real images, which restricts the editability of the synthesized content. Although some methods incorporate ControlNet to introduce image-based conditioning, they often lack explicit motion control and require computationally expensive training. To address these limitations, we propose AnyI2V, a training-free framework that animates any conditional images with user-defined motion trajectories. AnyI2V supports a broader range of modalities as the conditional image, including data types such as meshes and point clouds that are not supported by ControlNet, enabling more flexible and versatile video generation. Additionally, it supports mixed conditional inputs and enables style transfer and editing via LoRA and text prompts. Extensive experiments demonstrate that the proposed AnyI2V achieves superior performance and provides a new perspective in spatial- and motion-controlled video generation. Code is available at https://henghuiding.com/AnyI2V/.
PDF121July 17, 2025