ChatPaper.aiChatPaper

Follow-Your-Click : Animation d'images régionales en domaine ouvert via des invites courtes

Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts

March 13, 2024
Auteurs: Yue Ma, Yingqing He, Hongfa Wang, Andong Wang, Chenyang Qi, Chengfei Cai, Xiu Li, Zhifeng Li, Heung-Yeung Shum, Wei Liu, Qifeng Chen
cs.AI

Résumé

Malgré les avancées récentes dans la génération d'images vers la vidéo, une meilleure contrôlabilité et l'animation locale restent peu explorées. La plupart des méthodes existantes de transformation d'images en vidéos ne sont pas localement conscientes et ont tendance à déplacer l'ensemble de la scène. Cependant, les artistes humains peuvent avoir besoin de contrôler le mouvement de différents objets ou régions. De plus, les méthodes actuelles de transformation d'images en vidéos (I2V) exigent des utilisateurs non seulement de décrire le mouvement cible, mais aussi de fournir des descriptions détaillées redondantes du contenu des images. Ces deux problèmes entravent l'utilisation pratique des outils I2V actuels. Dans cet article, nous proposons un cadre pratique, nommé Follow-Your-Click, pour réaliser l'animation d'images avec un simple clic de l'utilisateur (pour spécifier ce qui doit bouger) et une courte invite de mouvement (pour spécifier comment bouger). Techniquement, nous proposons une stratégie de masquage de la première image, qui améliore significativement la qualité de la génération vidéo, et un module augmenté de mouvement équipé d'un ensemble de données d'invites de mouvement courtes pour améliorer les capacités de notre modèle à suivre les invites courtes. Pour contrôler davantage la vitesse du mouvement, nous proposons un contrôle de l'amplitude du mouvement basé sur le flux pour contrôler plus précisément la vitesse du mouvement cible. Notre cadre offre un contrôle utilisateur plus simple mais plus précis et une meilleure performance de génération que les méthodes précédentes. Des expériences approfondies comparées à 7 méthodes de référence, incluant à la fois des outils commerciaux et des méthodes de recherche sur 8 métriques, suggèrent la supériorité de notre approche. Page du projet : https://follow-your-click.github.io/
English
Despite recent advances in image-to-video generation, better controllability and local animation are less explored. Most existing image-to-video methods are not locally aware and tend to move the entire scene. However, human artists may need to control the movement of different objects or regions. Additionally, current I2V methods require users not only to describe the target motion but also to provide redundant detailed descriptions of frame contents. These two issues hinder the practical utilization of current I2V tools. In this paper, we propose a practical framework, named Follow-Your-Click, to achieve image animation with a simple user click (for specifying what to move) and a short motion prompt (for specifying how to move). Technically, we propose the first-frame masking strategy, which significantly improves the video generation quality, and a motion-augmented module equipped with a short motion prompt dataset to improve the short prompt following abilities of our model. To further control the motion speed, we propose flow-based motion magnitude control to control the speed of target movement more precisely. Our framework has simpler yet precise user control and better generation performance than previous methods. Extensive experiments compared with 7 baselines, including both commercial tools and research methods on 8 metrics, suggest the superiority of our approach. Project Page: https://follow-your-click.github.io/

Summary

AI-Generated Summary

PDF155December 15, 2024