Reinterpretare Qualsiasi Cosa: Trasferimento Semantico del Movimento Video Utilizzando Inversione Movimento-Testuale
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion
August 1, 2024
Autori: Manuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber
cs.AI
Abstract
Negli ultimi anni si è assistito a un notevole miglioramento nella qualità delle tecniche di generazione e modifica dei video. Mentre diverse metodologie si concentrano sulla modifica dell'aspetto, poche affrontano il movimento. Gli approcci attuali che utilizzano testo, traiettorie o bounding box sono limitati a movimenti semplici, pertanto noi specifichiamo i movimenti utilizzando un singolo video di riferimento per il movimento. Proponiamo inoltre di utilizzare un modello pre-addestrato da immagine a video piuttosto che un modello da testo a video. Questo approccio ci consente di preservare l'aspetto e la posizione esatti di un oggetto o di una scena target e aiuta a separare l'aspetto dal movimento. Il nostro metodo, chiamato inversione moto-testuale, sfrutta l'osservazione che i modelli da immagine a video estraggono principalmente l'aspetto dall'input (latente) dell'immagine, mentre l'embedding di testo/immagine iniettato tramite cross-attention controlla prevalentemente il movimento. Rappresentiamo quindi il movimento utilizzando token di embedding di testo/immagine. Operando su un embedding moto-testo espanso contenente più token di embedding di testo/immagine per fotogramma, otteniamo un'elevata granularità temporale del movimento. Una volta ottimizzato sul video di riferimento del movimento, questo embedding può essere applicato a varie immagini target per generare video con movimenti semanticamente simili. Il nostro approccio non richiede allineamento spaziale tra il video di riferimento del movimento e l'immagine target, si generalizza su vari domini e può essere applicato a diverse attività come il reenactment di corpo intero e volto, nonché al controllo del movimento di oggetti inanimati e della telecamera. Dimostriamo empiricamente l'efficacia del nostro metodo nel compito di trasferimento semantico del movimento video, superando significativamente i metodi esistenti in questo contesto.
English
Recent years have seen a tremendous improvement in the quality of video
generation and editing approaches. While several techniques focus on editing
appearance, few address motion. Current approaches using text, trajectories, or
bounding boxes are limited to simple motions, so we specify motions with a
single motion reference video instead. We further propose to use a pre-trained
image-to-video model rather than a text-to-video model. This approach allows us
to preserve the exact appearance and position of a target object or scene and
helps disentangle appearance from motion. Our method, called motion-textual
inversion, leverages our observation that image-to-video models extract
appearance mainly from the (latent) image input, while the text/image embedding
injected via cross-attention predominantly controls motion. We thus represent
motion using text/image embedding tokens. By operating on an inflated
motion-text embedding containing multiple text/image embedding tokens per
frame, we achieve a high temporal motion granularity. Once optimized on the
motion reference video, this embedding can be applied to various target images
to generate videos with semantically similar motions. Our approach does not
require spatial alignment between the motion reference video and target image,
generalizes across various domains, and can be applied to various tasks such as
full-body and face reenactment, as well as controlling the motion of inanimate
objects and the camera. We empirically demonstrate the effectiveness of our
method in the semantic video motion transfer task, significantly outperforming
existing methods in this context.