ChatPaper.aiChatPaper

AnyI2V: Animation beliebiger bedingter Bilder mit Bewegungssteuerung

AnyI2V: Animating Any Conditional Image with Motion Control

July 3, 2025
papers.authors: Ziye Li, Hao Luo, Xincheng Shuai, Henghui Ding
cs.AI

papers.abstract

Jüngste Fortschritte in der Videogenerierung, insbesondere bei Diffusionsmodellen, haben bemerkenswerte Fortschritte in der Text-zu-Video (T2V) und Bild-zu-Video (I2V) Synthese vorangetrieben. Dennoch bestehen weiterhin Herausforderungen bei der effektiven Integration dynamischer Bewegungsinformationen und flexibler räumlicher Beschränkungen. Bestehende T2V-Methoden stützen sich typischerweise auf Textanweisungen, die von Natur aus keine präzise Kontrolle über das räumliche Layout des generierten Inhalts bieten. Im Gegensatz dazu sind I2V-Methoden durch ihre Abhängigkeit von realen Bildern eingeschränkt, was die Bearbeitbarkeit des synthetisierten Inhalts begrenzt. Obwohl einige Methoden ControlNet einbeziehen, um bildbasierte Konditionierung einzuführen, fehlt ihnen oft eine explizite Bewegungssteuerung, und sie erfordern rechenintensives Training. Um diese Einschränkungen zu überwinden, schlagen wir AnyI2V vor, ein trainingsfreies Framework, das beliebige konditionale Bilder mit benutzerdefinierten Bewegungspfaden animiert. AnyI2V unterstützt eine breitere Palette von Modalitäten als konditionale Bilder, einschließlich Datentypen wie Meshes und Punktwolken, die von ControlNet nicht unterstützt werden, und ermöglicht so eine flexiblere und vielseitigere Videogenerierung. Darüber hinaus unterstützt es gemischte konditionale Eingaben und ermöglicht Stiltransfer und Bearbeitung via LoRA und Textanweisungen. Umfangreiche Experimente zeigen, dass das vorgeschlagene AnyI2V eine überlegene Leistung erzielt und eine neue Perspektive in der räumlich und bewegungsgesteuerten Videogenerierung bietet. Der Code ist verfügbar unter https://henghuiding.com/AnyI2V/.
English
Recent advancements in video generation, particularly in diffusion models, have driven notable progress in text-to-video (T2V) and image-to-video (I2V) synthesis. However, challenges remain in effectively integrating dynamic motion signals and flexible spatial constraints. Existing T2V methods typically rely on text prompts, which inherently lack precise control over the spatial layout of generated content. In contrast, I2V methods are limited by their dependence on real images, which restricts the editability of the synthesized content. Although some methods incorporate ControlNet to introduce image-based conditioning, they often lack explicit motion control and require computationally expensive training. To address these limitations, we propose AnyI2V, a training-free framework that animates any conditional images with user-defined motion trajectories. AnyI2V supports a broader range of modalities as the conditional image, including data types such as meshes and point clouds that are not supported by ControlNet, enabling more flexible and versatile video generation. Additionally, it supports mixed conditional inputs and enables style transfer and editing via LoRA and text prompts. Extensive experiments demonstrate that the proposed AnyI2V achieves superior performance and provides a new perspective in spatial- and motion-controlled video generation. Code is available at https://henghuiding.com/AnyI2V/.
PDF81July 17, 2025