ChatPaper.aiChatPaper

Folge-deinem-Klick: Animierung von Bildern in offenen Bereichen durch regionale Bildanimation mittels kurzer Anweisungen

Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts

March 13, 2024
Autoren: Yue Ma, Yingqing He, Hongfa Wang, Andong Wang, Chenyang Qi, Chengfei Cai, Xiu Li, Zhifeng Li, Heung-Yeung Shum, Wei Liu, Qifeng Chen
cs.AI

Zusammenfassung

Trotz der jüngsten Fortschritte bei der Generierung von Bildern zu Videos sind eine bessere Steuerbarkeit und lokale Animation weniger erforscht. Die meisten bestehenden Methoden zur Bild-zu-Video-Umwandlung sind nicht lokal bewusst und neigen dazu, die gesamte Szene zu bewegen. Allerdings müssen menschliche Künstler möglicherweise die Bewegung verschiedener Objekte oder Regionen steuern. Darüber hinaus erfordern aktuelle Bild-zu-Video-Methoden von den Benutzern nicht nur die Beschreibung der Zielbewegung, sondern auch redundante detaillierte Beschreibungen der Bildinhalte. Diese beiden Probleme behindern die praktische Nutzung der aktuellen Bild-zu-Video-Tools. In diesem Artikel schlagen wir ein praktisches Framework namens Follow-Your-Click vor, um Bildanimation mit einem einfachen Benutzerklick (zur Spezifizierung, was bewegt werden soll) und einem kurzen Bewegungsanstoß (zur Spezifizierung, wie bewegt werden soll) zu erreichen. Technisch gesehen schlagen wir die Strategie der Maskierung des ersten Rahmens vor, die die Qualität der Videoerzeugung signifikant verbessert, sowie ein Bewegungs-augmentiertes Modul, das mit einem Datensatz kurzer Bewegungsanreize ausgestattet ist, um die Fähigkeiten unseres Modells zur Verfolgung kurzer Anweisungen zu verbessern. Um die Bewegungsgeschwindigkeit weiter zu steuern, schlagen wir eine flussbasierte Steuerung der Bewegungsgröße vor, um die Geschwindigkeit der Zielsbewegung genauer zu steuern. Unser Framework bietet eine einfachere, aber präzisere Benutzersteuerung und eine bessere Generierungsleistung als frühere Methoden. Umfangreiche Experimente im Vergleich zu 7 Baselines, einschließlich kommerzieller Tools und Forschungsmethoden auf 8 Metriken, legen die Überlegenheit unseres Ansatzes nahe. Projektseite: https://follow-your-click.github.io/
English
Despite recent advances in image-to-video generation, better controllability and local animation are less explored. Most existing image-to-video methods are not locally aware and tend to move the entire scene. However, human artists may need to control the movement of different objects or regions. Additionally, current I2V methods require users not only to describe the target motion but also to provide redundant detailed descriptions of frame contents. These two issues hinder the practical utilization of current I2V tools. In this paper, we propose a practical framework, named Follow-Your-Click, to achieve image animation with a simple user click (for specifying what to move) and a short motion prompt (for specifying how to move). Technically, we propose the first-frame masking strategy, which significantly improves the video generation quality, and a motion-augmented module equipped with a short motion prompt dataset to improve the short prompt following abilities of our model. To further control the motion speed, we propose flow-based motion magnitude control to control the speed of target movement more precisely. Our framework has simpler yet precise user control and better generation performance than previous methods. Extensive experiments compared with 7 baselines, including both commercial tools and research methods on 8 metrics, suggest the superiority of our approach. Project Page: https://follow-your-click.github.io/

Summary

AI-Generated Summary

PDF155December 15, 2024