LivePhoto: Echtbildanimation mit textgesteuerter Bewegungssteuerung
LivePhoto: Real Image Animation with Text-guided Motion Control
December 5, 2023
papers.authors: Xi Chen, Zhiheng Liu, Mengting Chen, Yutong Feng, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI
papers.abstract
Trotz der jüngsten Fortschritte in der Text-zu-Video-Generierung übersehen bestehende Studien häufig das Problem, dass in synthetisierten Videos nur räumliche Inhalte, nicht jedoch zeitliche Bewegungen durch den Text gesteuert werden. Um dieser Herausforderung zu begegnen, stellt diese Arbeit ein praktisches System namens LivePhoto vor, das es Benutzern ermöglicht, ein Bild von Interesse mit Textbeschreibungen zu animieren. Zunächst etablieren wir eine starke Baseline, die einem gut trainierten Text-zu-Bild-Generator (z. B. Stable Diffusion) ermöglicht, ein Bild als zusätzliche Eingabe zu verwenden. Anschließend statten wir den verbesserten Generator mit einem Bewegungsmodul für die zeitliche Modellierung aus und schlagen eine sorgfältig gestaltete Trainingspipeline vor, um Texte und Bewegungen besser zu verknüpfen. Insbesondere berücksichtigen wir die Tatsachen, dass (1) Text Bewegungen nur grob beschreiben kann (z. B. unabhängig von der Bewegungsgeschwindigkeit) und (2) Text sowohl Inhalts- als auch Bewegungsbeschreibungen enthalten kann. Daher führen wir ein Modul zur Schätzung der Bewegungsintensität sowie ein Textgewichtungsmodul ein, um die Mehrdeutigkeit der Text-zu-Bewegungs-Zuordnung zu verringern. Empirische Belege legen nahe, dass unser Ansatz in der Lage ist, bewegungsbezogene textuelle Anweisungen wie Aktionen, Kamerabewegungen oder sogar das Erschaffen neuer Inhalte aus dem Nichts (z. B. das Eingießen von Wasser in ein leeres Glas) gut in Videos zu dekodieren. Interessanterweise bietet unser System den Benutzern dank des vorgeschlagenen Intensitätslernmechanismus ein zusätzliches Steuersignal (d. h. die Bewegungsintensität) neben dem Text zur Anpassung von Videos.
English
Despite the recent progress in text-to-video generation, existing studies
usually overlook the issue that only spatial contents but not temporal motions
in synthesized videos are under the control of text. Towards such a challenge,
this work presents a practical system, named LivePhoto, which allows users to
animate an image of their interest with text descriptions. We first establish a
strong baseline that helps a well-learned text-to-image generator (i.e., Stable
Diffusion) take an image as a further input. We then equip the improved
generator with a motion module for temporal modeling and propose a carefully
designed training pipeline to better link texts and motions. In particular,
considering the facts that (1) text can only describe motions roughly (e.g.,
regardless of the moving speed) and (2) text may include both content and
motion descriptions, we introduce a motion intensity estimation module as well
as a text re-weighting module to reduce the ambiguity of text-to-motion
mapping. Empirical evidence suggests that our approach is capable of well
decoding motion-related textual instructions into videos, such as actions,
camera movements, or even conjuring new contents from thin air (e.g., pouring
water into an empty glass). Interestingly, thanks to the proposed intensity
learning mechanism, our system offers users an additional control signal (i.e.,
the motion intensity) besides text for video customization.