Follow-Your-Click: Animazione Regionale di Immagini in Dominio Aperto tramite Brevi Prompt

Abstract

Nonostante i recenti progressi nella generazione da immagine a video, una migliore controllabilità e l'animazione locale sono meno esplorate. La maggior parte dei metodi esistenti per la generazione da immagine a video non sono localmente consapevoli e tendono a muovere l'intera scena. Tuttavia, gli artisti umani potrebbero aver bisogno di controllare il movimento di diversi oggetti o regioni. Inoltre, gli attuali metodi I2V richiedono agli utenti non solo di descrivere il movimento target, ma anche di fornire descrizioni dettagliate ridondanti dei contenuti dei frame. Questi due problemi ostacolano l'utilizzo pratico degli attuali strumenti I2V. In questo articolo, proponiamo un framework pratico, denominato Follow-Your-Click, per ottenere l'animazione di un'immagine con un semplice clic dell'utente (per specificare cosa muovere) e una breve indicazione di movimento (per specificare come muovere). Tecnicamente, proponiamo la strategia di mascheramento del primo frame, che migliora significativamente la qualità della generazione video, e un modulo arricchito di movimento dotato di un dataset di brevi indicazioni di movimento per migliorare le capacità del nostro modello di seguire brevi indicazioni. Per controllare ulteriormente la velocità del movimento, proponiamo un controllo della magnitudine del movimento basato sul flusso per controllare più precisamente la velocità del movimento target. Il nostro framework ha un controllo utente più semplice ma preciso e una migliore performance di generazione rispetto ai metodi precedenti. Esperimenti estensivi confrontati con 7 baseline, inclusi sia strumenti commerciali che metodi di ricerca su 8 metriche, suggeriscono la superiorità del nostro approccio. Pagina del progetto: https://follow-your-click.github.io/

English

Despite recent advances in image-to-video generation, better controllability and local animation are less explored. Most existing image-to-video methods are not locally aware and tend to move the entire scene. However, human artists may need to control the movement of different objects or regions. Additionally, current I2V methods require users not only to describe the target motion but also to provide redundant detailed descriptions of frame contents. These two issues hinder the practical utilization of current I2V tools. In this paper, we propose a practical framework, named Follow-Your-Click, to achieve image animation with a simple user click (for specifying what to move) and a short motion prompt (for specifying how to move). Technically, we propose the first-frame masking strategy, which significantly improves the video generation quality, and a motion-augmented module equipped with a short motion prompt dataset to improve the short prompt following abilities of our model. To further control the motion speed, we propose flow-based motion magnitude control to control the speed of target movement more precisely. Our framework has simpler yet precise user control and better generation performance than previous methods. Extensive experiments compared with 7 baselines, including both commercial tools and research methods on 8 metrics, suggest the superiority of our approach. Project Page: https://follow-your-click.github.io/

Follow-Your-Click: Animazione Regionale di Immagini in Dominio Aperto tramite Brevi Prompt

Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts

Abstract

Support