Follow-Your-Click: Animación de imágenes regionales de dominio abierto mediante indicaciones breves
Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts
March 13, 2024
Autores: Yue Ma, Yingqing He, Hongfa Wang, Andong Wang, Chenyang Qi, Chengfei Cai, Xiu Li, Zhifeng Li, Heung-Yeung Shum, Wei Liu, Qifeng Chen
cs.AI
Resumen
A pesar de los recientes avances en la generación de imagen a video, una mejor controlabilidad y la animación local han sido menos exploradas. La mayoría de los métodos existentes de imagen a video no son localmente conscientes y tienden a mover toda la escena. Sin embargo, los artistas humanos pueden necesitar controlar el movimiento de diferentes objetos o regiones. Además, los métodos actuales de I2V requieren que los usuarios no solo describan el movimiento objetivo, sino que también proporcionen descripciones detalladas redundantes del contenido de los fotogramas. Estos dos problemas dificultan la utilización práctica de las herramientas actuales de I2V. En este artículo, proponemos un marco práctico, denominado Follow-Your-Click, para lograr la animación de imágenes con un simple clic del usuario (para especificar qué mover) y una breve indicación de movimiento (para especificar cómo mover). Técnicamente, proponemos la estrategia de enmascaramiento del primer fotograma, que mejora significativamente la calidad de la generación de video, y un módulo aumentado de movimiento equipado con un conjunto de datos de indicaciones de movimiento breves para mejorar la capacidad de nuestro modelo de seguir indicaciones breves. Para controlar aún más la velocidad del movimiento, proponemos un control de magnitud de movimiento basado en flujo para controlar con mayor precisión la velocidad del movimiento objetivo. Nuestro marco tiene un control del usuario más simple pero preciso y un mejor rendimiento de generación que los métodos anteriores. Experimentos extensos comparados con 7 líneas base, incluyendo tanto herramientas comerciales como métodos de investigación en 8 métricas, sugieren la superioridad de nuestro enfoque. Página del proyecto: https://follow-your-click.github.io/
English
Despite recent advances in image-to-video generation, better controllability
and local animation are less explored. Most existing image-to-video methods are
not locally aware and tend to move the entire scene. However, human artists may
need to control the movement of different objects or regions. Additionally,
current I2V methods require users not only to describe the target motion but
also to provide redundant detailed descriptions of frame contents. These two
issues hinder the practical utilization of current I2V tools. In this paper, we
propose a practical framework, named Follow-Your-Click, to achieve image
animation with a simple user click (for specifying what to move) and a short
motion prompt (for specifying how to move). Technically, we propose the
first-frame masking strategy, which significantly improves the video generation
quality, and a motion-augmented module equipped with a short motion prompt
dataset to improve the short prompt following abilities of our model. To
further control the motion speed, we propose flow-based motion magnitude
control to control the speed of target movement more precisely. Our framework
has simpler yet precise user control and better generation performance than
previous methods. Extensive experiments compared with 7 baselines, including
both commercial tools and research methods on 8 metrics, suggest the
superiority of our approach. Project Page: https://follow-your-click.github.io/Summary
AI-Generated Summary