Follow-Your-Click: Animazione Regionale di Immagini in Dominio Aperto tramite Brevi Prompt
Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts
March 13, 2024
Autori: Yue Ma, Yingqing He, Hongfa Wang, Andong Wang, Chenyang Qi, Chengfei Cai, Xiu Li, Zhifeng Li, Heung-Yeung Shum, Wei Liu, Qifeng Chen
cs.AI
Abstract
Nonostante i recenti progressi nella generazione da immagine a video, una migliore controllabilità e l'animazione locale sono meno esplorate. La maggior parte dei metodi esistenti per la generazione da immagine a video non sono localmente consapevoli e tendono a muovere l'intera scena. Tuttavia, gli artisti umani potrebbero aver bisogno di controllare il movimento di diversi oggetti o regioni. Inoltre, gli attuali metodi I2V richiedono agli utenti non solo di descrivere il movimento target, ma anche di fornire descrizioni dettagliate ridondanti dei contenuti dei frame. Questi due problemi ostacolano l'utilizzo pratico degli attuali strumenti I2V. In questo articolo, proponiamo un framework pratico, denominato Follow-Your-Click, per ottenere l'animazione di un'immagine con un semplice clic dell'utente (per specificare cosa muovere) e una breve indicazione di movimento (per specificare come muovere). Tecnicamente, proponiamo la strategia di mascheramento del primo frame, che migliora significativamente la qualità della generazione video, e un modulo arricchito di movimento dotato di un dataset di brevi indicazioni di movimento per migliorare le capacità del nostro modello di seguire brevi indicazioni. Per controllare ulteriormente la velocità del movimento, proponiamo un controllo della magnitudine del movimento basato sul flusso per controllare più precisamente la velocità del movimento target. Il nostro framework ha un controllo utente più semplice ma preciso e una migliore performance di generazione rispetto ai metodi precedenti. Esperimenti estensivi confrontati con 7 baseline, inclusi sia strumenti commerciali che metodi di ricerca su 8 metriche, suggeriscono la superiorità del nostro approccio. Pagina del progetto: https://follow-your-click.github.io/
English
Despite recent advances in image-to-video generation, better controllability
and local animation are less explored. Most existing image-to-video methods are
not locally aware and tend to move the entire scene. However, human artists may
need to control the movement of different objects or regions. Additionally,
current I2V methods require users not only to describe the target motion but
also to provide redundant detailed descriptions of frame contents. These two
issues hinder the practical utilization of current I2V tools. In this paper, we
propose a practical framework, named Follow-Your-Click, to achieve image
animation with a simple user click (for specifying what to move) and a short
motion prompt (for specifying how to move). Technically, we propose the
first-frame masking strategy, which significantly improves the video generation
quality, and a motion-augmented module equipped with a short motion prompt
dataset to improve the short prompt following abilities of our model. To
further control the motion speed, we propose flow-based motion magnitude
control to control the speed of target movement more precisely. Our framework
has simpler yet precise user control and better generation performance than
previous methods. Extensive experiments compared with 7 baselines, including
both commercial tools and research methods on 8 metrics, suggest the
superiority of our approach. Project Page: https://follow-your-click.github.io/