ChatPaper.aiChatPaper

Follow-Your-Click: Animação Regional de Imagens em Domínio Aberto via Prompts Curtos

Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts

March 13, 2024
Autores: Yue Ma, Yingqing He, Hongfa Wang, Andong Wang, Chenyang Qi, Chengfei Cai, Xiu Li, Zhifeng Li, Heung-Yeung Shum, Wei Liu, Qifeng Chen
cs.AI

Resumo

Apesar dos recentes avanços na geração de vídeos a partir de imagens, a melhor controlabilidade e a animação local são menos exploradas. A maioria dos métodos existentes de imagem para vídeo não são localmente conscientes e tendem a mover a cena inteira. No entanto, artistas humanos podem precisar controlar o movimento de diferentes objetos ou regiões. Além disso, os métodos atuais de I2V exigem que os usuários não apenas descrevam o movimento desejado, mas também forneçam descrições detalhadas redundantes do conteúdo dos quadros. Esses dois problemas dificultam a utilização prática das ferramentas atuais de I2V. Neste artigo, propomos uma estrutura prática, chamada Follow-Your-Click, para alcançar a animação de imagens com um simples clique do usuário (para especificar o que mover) e um breve prompt de movimento (para especificar como mover). Tecnicamente, propomos a estratégia de mascaramento do primeiro quadro, que melhora significativamente a qualidade da geração de vídeo, e um módulo de aumento de movimento equipado com um conjunto de dados de prompts curtos de movimento para melhorar as habilidades de seguimento de prompts curtos do nosso modelo. Para controlar ainda mais a velocidade do movimento, propomos o controle de magnitude de movimento baseado em fluxo para controlar a velocidade do movimento alvo com maior precisão. Nossa estrutura tem um controle do usuário mais simples, porém preciso, e um desempenho de geração melhor do que os métodos anteriores. Experimentos extensivos comparados com 7 linhas de base, incluindo ferramentas comerciais e métodos de pesquisa em 8 métricas, sugerem a superioridade da nossa abordagem. Página do Projeto: https://follow-your-click.github.io/
English
Despite recent advances in image-to-video generation, better controllability and local animation are less explored. Most existing image-to-video methods are not locally aware and tend to move the entire scene. However, human artists may need to control the movement of different objects or regions. Additionally, current I2V methods require users not only to describe the target motion but also to provide redundant detailed descriptions of frame contents. These two issues hinder the practical utilization of current I2V tools. In this paper, we propose a practical framework, named Follow-Your-Click, to achieve image animation with a simple user click (for specifying what to move) and a short motion prompt (for specifying how to move). Technically, we propose the first-frame masking strategy, which significantly improves the video generation quality, and a motion-augmented module equipped with a short motion prompt dataset to improve the short prompt following abilities of our model. To further control the motion speed, we propose flow-based motion magnitude control to control the speed of target movement more precisely. Our framework has simpler yet precise user control and better generation performance than previous methods. Extensive experiments compared with 7 baselines, including both commercial tools and research methods on 8 metrics, suggest the superiority of our approach. Project Page: https://follow-your-click.github.io/
PDF155December 15, 2024