ChatPaper.aiChatPaper

LivePhoto: Анимация реальных изображений с управлением движением на основе текстовых описаний

LivePhoto: Real Image Animation with Text-guided Motion Control

December 5, 2023
Авторы: Xi Chen, Zhiheng Liu, Mengting Chen, Yutong Feng, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI

Аннотация

Несмотря на недавние успехи в генерации видео из текста, существующие исследования обычно упускают из виду тот факт, что в синтезированных видео контролируется только пространственное содержание, но не временные движения. Для решения этой проблемы в данной работе представлена практическая система под названием LivePhoto, которая позволяет пользователям анимировать интересующее их изображение с помощью текстовых описаний. Сначала мы создаем надежную базовую модель, которая позволяет хорошо обученному генератору изображений из текста (например, Stable Diffusion) принимать изображение в качестве дополнительного входного данных. Затем мы оснащаем улучшенный генератор модулем для временного моделирования движений и предлагаем тщательно разработанный процесс обучения, чтобы лучше связывать тексты и движения. В частности, учитывая, что (1) текст может описывать движения лишь приблизительно (например, без учета скорости движения) и (2) текст может включать как описание содержания, так и движений, мы вводим модуль оценки интенсивности движения, а также модуль перевешивания текста, чтобы снизить неоднозначность в отображении текста на движения. Эмпирические данные показывают, что наш подход способен эффективно преобразовывать текстовые инструкции, связанные с движением, в видео, такие как действия, движения камеры или даже создание нового содержимого "из ничего" (например, наливание воды в пустой стакан). Интересно, что благодаря предложенному механизму обучения интенсивности, наша система предоставляет пользователям дополнительный контрольный сигнал (например, интенсивность движения) помимо текста для настройки видео.
English
Despite the recent progress in text-to-video generation, existing studies usually overlook the issue that only spatial contents but not temporal motions in synthesized videos are under the control of text. Towards such a challenge, this work presents a practical system, named LivePhoto, which allows users to animate an image of their interest with text descriptions. We first establish a strong baseline that helps a well-learned text-to-image generator (i.e., Stable Diffusion) take an image as a further input. We then equip the improved generator with a motion module for temporal modeling and propose a carefully designed training pipeline to better link texts and motions. In particular, considering the facts that (1) text can only describe motions roughly (e.g., regardless of the moving speed) and (2) text may include both content and motion descriptions, we introduce a motion intensity estimation module as well as a text re-weighting module to reduce the ambiguity of text-to-motion mapping. Empirical evidence suggests that our approach is capable of well decoding motion-related textual instructions into videos, such as actions, camera movements, or even conjuring new contents from thin air (e.g., pouring water into an empty glass). Interestingly, thanks to the proposed intensity learning mechanism, our system offers users an additional control signal (i.e., the motion intensity) besides text for video customization.
PDF183December 15, 2024