LivePhoto: Animazione di Immagini Reali con Controllo del Movimento Guidato da Testo
LivePhoto: Real Image Animation with Text-guided Motion Control
December 5, 2023
Autori: Xi Chen, Zhiheng Liu, Mengting Chen, Yutong Feng, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI
Abstract
Nonostante i recenti progressi nella generazione di video da testo, gli studi esistenti spesso trascurano il fatto che nei video sintetizzati solo i contenuti spaziali, e non i movimenti temporali, sono controllati dal testo. Per affrontare questa sfida, questo lavoro presenta un sistema pratico, denominato LivePhoto, che consente agli utenti di animare un'immagine di loro interesse con descrizioni testuali. Inizialmente, stabiliamo una solida baseline che permette a un generatore testo-immagine ben addestrato (ad esempio, Stable Diffusion) di accettare un'immagine come input aggiuntivo. Successivamente, dotiamo il generatore migliorato di un modulo di movimento per la modellazione temporale e proponiamo una pipeline di addestramento accuratamente progettata per collegare meglio testi e movimenti. In particolare, considerando i fatti che (1) il testo può descrivere i movimenti solo in modo approssimativo (ad esempio, senza considerare la velocità di movimento) e (2) il testo può includere sia descrizioni di contenuti che di movimenti, introduciamo un modulo di stima dell'intensità del movimento e un modulo di ri-ponderazione del testo per ridurre l'ambiguità nella mappatura testo-movimento. Le evidenze empiriche suggeriscono che il nostro approccio è in grado di decodificare efficacemente le istruzioni testuali relative al movimento in video, come azioni, movimenti della fotocamera o persino evocare nuovi contenuti dal nulla (ad esempio, versare acqua in un bicchiere vuoto). Interessante è il fatto che, grazie al meccanismo di apprendimento dell'intensità proposto, il nostro sistema offre agli utenti un segnale di controllo aggiuntivo (ovvero, l'intensità del movimento) oltre al testo per la personalizzazione del video.
English
Despite the recent progress in text-to-video generation, existing studies
usually overlook the issue that only spatial contents but not temporal motions
in synthesized videos are under the control of text. Towards such a challenge,
this work presents a practical system, named LivePhoto, which allows users to
animate an image of their interest with text descriptions. We first establish a
strong baseline that helps a well-learned text-to-image generator (i.e., Stable
Diffusion) take an image as a further input. We then equip the improved
generator with a motion module for temporal modeling and propose a carefully
designed training pipeline to better link texts and motions. In particular,
considering the facts that (1) text can only describe motions roughly (e.g.,
regardless of the moving speed) and (2) text may include both content and
motion descriptions, we introduce a motion intensity estimation module as well
as a text re-weighting module to reduce the ambiguity of text-to-motion
mapping. Empirical evidence suggests that our approach is capable of well
decoding motion-related textual instructions into videos, such as actions,
camera movements, or even conjuring new contents from thin air (e.g., pouring
water into an empty glass). Interestingly, thanks to the proposed intensity
learning mechanism, our system offers users an additional control signal (i.e.,
the motion intensity) besides text for video customization.