ChatPaper.aiChatPaper

Follow-Your-Click: Open-domain Regionale Beeldanimatie via Korte Prompts

Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts

March 13, 2024
Auteurs: Yue Ma, Yingqing He, Hongfa Wang, Andong Wang, Chenyang Qi, Chengfei Cai, Xiu Li, Zhifeng Li, Heung-Yeung Shum, Wei Liu, Qifeng Chen
cs.AI

Samenvatting

Ondanks recente vooruitgang in beeld-naar-video-generatie, zijn betere bestuurbaarheid en lokale animatie minder onderzocht. De meeste bestaande beeld-naar-video-methoden zijn niet lokaal bewust en hebben de neiging om de hele scène te bewegen. Echter, menselijke kunstenaars hebben mogelijk de behoefte om de beweging van verschillende objecten of regio's te controleren. Daarnaast vereisen huidige I2V-methoden dat gebruikers niet alleen de doelbeweging beschrijven, maar ook overbodige gedetailleerde beschrijvingen van frame-inhoud leveren. Deze twee problemen belemmeren de praktische toepassing van huidige I2V-tools. In dit artikel stellen we een praktisch framework voor, genaamd Follow-Your-Click, om beeldanimatie te bereiken met een eenvoudige gebruikersklik (om aan te geven wat er moet bewegen) en een korte bewegingsprompt (om aan te geven hoe er bewogen moet worden). Technisch gezien stellen we de first-frame masking-strategie voor, die de kwaliteit van videogeneratie aanzienlijk verbetert, en een met bewegingsgegevens versterkte module uitgerust met een dataset van korte bewegingsprompts om het vermogen van ons model om korte prompts te volgen te verbeteren. Om de bewegingssnelheid verder te controleren, stellen we flow-based motion magnitude control voor om de snelheid van de doelbeweging nauwkeuriger te controleren. Ons framework heeft een eenvoudigere maar preciezere gebruikerscontrole en betere generatieprestaties dan eerdere methoden. Uitgebreide experimenten vergeleken met 7 baselines, waaronder zowel commerciële tools als onderzoeksmethoden op 8 metrieken, suggereren de superioriteit van onze aanpak. Projectpagina: https://follow-your-click.github.io/
English
Despite recent advances in image-to-video generation, better controllability and local animation are less explored. Most existing image-to-video methods are not locally aware and tend to move the entire scene. However, human artists may need to control the movement of different objects or regions. Additionally, current I2V methods require users not only to describe the target motion but also to provide redundant detailed descriptions of frame contents. These two issues hinder the practical utilization of current I2V tools. In this paper, we propose a practical framework, named Follow-Your-Click, to achieve image animation with a simple user click (for specifying what to move) and a short motion prompt (for specifying how to move). Technically, we propose the first-frame masking strategy, which significantly improves the video generation quality, and a motion-augmented module equipped with a short motion prompt dataset to improve the short prompt following abilities of our model. To further control the motion speed, we propose flow-based motion magnitude control to control the speed of target movement more precisely. Our framework has simpler yet precise user control and better generation performance than previous methods. Extensive experiments compared with 7 baselines, including both commercial tools and research methods on 8 metrics, suggest the superiority of our approach. Project Page: https://follow-your-click.github.io/
PDF155December 15, 2024