LivePhoto: Echte Beeldanimatie met Tekstgestuurde Bewegingscontrole
LivePhoto: Real Image Animation with Text-guided Motion Control
December 5, 2023
Auteurs: Xi Chen, Zhiheng Liu, Mengting Chen, Yutong Feng, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI
Samenvatting
Ondanks de recente vooruitgang in tekst-naar-video-generatie, negeren bestaande studies meestal het probleem dat alleen ruimtelijke inhoud, maar niet temporele bewegingen in gesynthetiseerde video's onder controle van tekst staan. Om deze uitdaging aan te gaan, presenteert dit werk een praktisch systeem, genaamd LivePhoto, waarmee gebruikers een afbeelding van hun interesse kunnen animeren met tekstbeschrijvingen. We stellen eerst een sterke basislijn op die een goed getrainde tekst-naar-afbeelding-generator (d.w.z. Stable Diffusion) helpt om een afbeelding als een extra invoer te nemen. Vervolgens rusten we de verbeterde generator uit met een bewegingsmodule voor temporele modellering en stellen we een zorgvuldig ontworpen trainingspijplijn voor om teksten en bewegingen beter te verbinden. Gezien de feiten dat (1) tekst bewegingen slechts grofweg kan beschrijven (bijv. ongeacht de bewegingssnelheid) en (2) tekst zowel inhouds- als bewegingsbeschrijvingen kan bevatten, introduceren we een module voor het schatten van bewegingsintensiteit en een tekstherwegingingsmodule om de ambiguïteit van tekst-naar-beweging-mapping te verminderen. Empirisch bewijs suggereert dat onze aanpak goed in staat is om bewegingsgerichte tekstuele instructies te decoderen in video's, zoals acties, camerabewegingen, of zelfs het toveren van nieuwe inhoud uit het niets (bijv. water in een leeg glas gieten). Interessant genoeg biedt ons systeem, dankzij het voorgestelde intensiteitsleermechanisme, gebruikers een extra controlesignaal (d.w.z. de bewegingsintensiteit) naast tekst voor videopersonalizatie.
English
Despite the recent progress in text-to-video generation, existing studies
usually overlook the issue that only spatial contents but not temporal motions
in synthesized videos are under the control of text. Towards such a challenge,
this work presents a practical system, named LivePhoto, which allows users to
animate an image of their interest with text descriptions. We first establish a
strong baseline that helps a well-learned text-to-image generator (i.e., Stable
Diffusion) take an image as a further input. We then equip the improved
generator with a motion module for temporal modeling and propose a carefully
designed training pipeline to better link texts and motions. In particular,
considering the facts that (1) text can only describe motions roughly (e.g.,
regardless of the moving speed) and (2) text may include both content and
motion descriptions, we introduce a motion intensity estimation module as well
as a text re-weighting module to reduce the ambiguity of text-to-motion
mapping. Empirical evidence suggests that our approach is capable of well
decoding motion-related textual instructions into videos, such as actions,
camera movements, or even conjuring new contents from thin air (e.g., pouring
water into an empty glass). Interestingly, thanks to the proposed intensity
learning mechanism, our system offers users an additional control signal (i.e.,
the motion intensity) besides text for video customization.