LivePhoto : Animation d'images réelles avec contrôle de mouvement guidé par texte
LivePhoto: Real Image Animation with Text-guided Motion Control
December 5, 2023
Auteurs: Xi Chen, Zhiheng Liu, Mengting Chen, Yutong Feng, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI
Résumé
Malgré les progrès récents dans la génération de texte-à-vidéo, les études existantes négligent souvent le fait que seuls les contenus spatiaux, et non les mouvements temporels, sont contrôlés par le texte dans les vidéos synthétisées. Face à ce défi, ce travail présente un système pratique, nommé LivePhoto, qui permet aux utilisateurs d'animer une image de leur choix avec des descriptions textuelles. Nous établissons d'abord une base solide qui permet à un générateur de texte-à-image bien entraîné (comme Stable Diffusion) de prendre une image comme entrée supplémentaire. Nous équipons ensuite ce générateur amélioré d'un module de mouvement pour la modélisation temporelle et proposons un pipeline d'entraînement soigneusement conçu pour mieux lier les textes et les mouvements. En particulier, en tenant compte du fait que (1) le texte ne peut décrire les mouvements que de manière approximative (par exemple, sans tenir compte de la vitesse de déplacement) et que (2) le texte peut inclure à la fois des descriptions de contenu et de mouvement, nous introduisons un module d'estimation de l'intensité du mouvement ainsi qu'un module de rééquilibrage du texte pour réduire l'ambiguïté de la cartographie texte-à-mouvement. Les preuves empiriques suggèrent que notre approche est capable de décoder efficacement les instructions textuelles liées au mouvement en vidéos, telles que des actions, des mouvements de caméra, ou même de faire apparaître de nouveaux contenus à partir de rien (par exemple, verser de l'eau dans un verre vide). Fait intéressant, grâce au mécanisme d'apprentissage de l'intensité proposé, notre système offre aux utilisateurs un signal de contrôle supplémentaire (c'est-à-dire l'intensité du mouvement) en plus du texte pour personnaliser les vidéos.
English
Despite the recent progress in text-to-video generation, existing studies
usually overlook the issue that only spatial contents but not temporal motions
in synthesized videos are under the control of text. Towards such a challenge,
this work presents a practical system, named LivePhoto, which allows users to
animate an image of their interest with text descriptions. We first establish a
strong baseline that helps a well-learned text-to-image generator (i.e., Stable
Diffusion) take an image as a further input. We then equip the improved
generator with a motion module for temporal modeling and propose a carefully
designed training pipeline to better link texts and motions. In particular,
considering the facts that (1) text can only describe motions roughly (e.g.,
regardless of the moving speed) and (2) text may include both content and
motion descriptions, we introduce a motion intensity estimation module as well
as a text re-weighting module to reduce the ambiguity of text-to-motion
mapping. Empirical evidence suggests that our approach is capable of well
decoding motion-related textual instructions into videos, such as actions,
camera movements, or even conjuring new contents from thin air (e.g., pouring
water into an empty glass). Interestingly, thanks to the proposed intensity
learning mechanism, our system offers users an additional control signal (i.e.,
the motion intensity) besides text for video customization.