Следуйте за своим кликом: анимация изображений региона открытого домена через краткие подсказки.
Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts
March 13, 2024
Авторы: Yue Ma, Yingqing He, Hongfa Wang, Andong Wang, Chenyang Qi, Chengfei Cai, Xiu Li, Zhifeng Li, Heung-Yeung Shum, Wei Liu, Qifeng Chen
cs.AI
Аннотация
Несмотря на недавние достижения в области генерации изображений в видеоформат, лучшая управляемость и локальная анимация остаются менее исследованными. Большинство существующих методов генерации изображений в видео не обладают локальным осознанием и склонны перемещать всю сцену. Однако художники-люди могут нуждаться в управлении движением различных объектов или областей. Кроме того, текущие методы генерации изображений в видео требуют от пользователей не только описания целевого движения, но и предоставления избыточных подробных описаний содержания кадра. Эти две проблемы затрудняют практическое использование существующих инструментов генерации изображений в видео. В данной статье мы предлагаем практическую структуру, названную "Follow-Your-Click", для достижения анимации изображения с помощью простого клика пользователя (для указания, что двигать) и краткого подсказывающего движения (для указания, как двигать). Технически мы предлагаем стратегию маскирования первого кадра, которая значительно улучшает качество генерации видео, а также модуль с увеличенным движением, оснащенный набором кратких подсказывающих движений для улучшения способностей нашей модели к следованию кратким подсказкам. Для дальнейшего контроля скорости движения мы предлагаем управление магнитудой движения на основе потока для более точного контроля скорости целевого движения. Наша структура обладает более простым, но точным управлением пользователем и лучшей производительностью генерации по сравнению с предыдущими методами. Обширные эксперименты, сравниваемые с 7 базовыми вариантами, включая как коммерческие инструменты, так и исследовательские методы по 8 метрикам, указывают на превосходство нашего подхода. Страница проекта: https://follow-your-click.github.io/
English
Despite recent advances in image-to-video generation, better controllability
and local animation are less explored. Most existing image-to-video methods are
not locally aware and tend to move the entire scene. However, human artists may
need to control the movement of different objects or regions. Additionally,
current I2V methods require users not only to describe the target motion but
also to provide redundant detailed descriptions of frame contents. These two
issues hinder the practical utilization of current I2V tools. In this paper, we
propose a practical framework, named Follow-Your-Click, to achieve image
animation with a simple user click (for specifying what to move) and a short
motion prompt (for specifying how to move). Technically, we propose the
first-frame masking strategy, which significantly improves the video generation
quality, and a motion-augmented module equipped with a short motion prompt
dataset to improve the short prompt following abilities of our model. To
further control the motion speed, we propose flow-based motion magnitude
control to control the speed of target movement more precisely. Our framework
has simpler yet precise user control and better generation performance than
previous methods. Extensive experiments compared with 7 baselines, including
both commercial tools and research methods on 8 metrics, suggest the
superiority of our approach. Project Page: https://follow-your-click.github.io/Summary
AI-Generated Summary