Still-Moving: Generazione Video Personalizzata Senza Dati Video Personalizzati
Still-Moving: Customized Video Generation without Customized Video Data
July 11, 2024
Autori: Hila Chefer, Shiran Zada, Roni Paiss, Ariel Ephrat, Omer Tov, Michael Rubinstein, Lior Wolf, Tali Dekel, Tomer Michaeli, Inbar Mosseri
cs.AI
Abstract
La personalizzazione dei modelli text-to-image (T2I) ha registrato progressi significativi di recente, in particolare in aree come la personalizzazione, la stilizzazione e la generazione condizionata. Tuttavia, estendere questi progressi alla generazione di video è ancora agli inizi, principalmente a causa della mancanza di dati video personalizzati. In questo lavoro, introduciamo Still-Moving, un nuovo framework generico per personalizzare un modello text-to-video (T2V), senza richiedere alcun dato video personalizzato. Il framework si applica al design T2V più diffuso, in cui il modello video è costruito su un modello text-to-image (T2I) (ad esempio, tramite inflazione). Assumiamo di avere accesso a una versione personalizzata del modello T2I, addestrata solo su dati di immagini statiche (ad esempio, utilizzando DreamBooth o StyleDrop). Inserire semplicemente i pesi del modello T2I personalizzato nel modello T2V spesso porta a significativi artefatti o a un'adesione insufficiente ai dati di personalizzazione. Per superare questo problema, addestriamo Spatial Adapters leggeri che regolano le caratteristiche prodotte dagli strati T2I iniettati. È importante sottolineare che i nostri adattatori vengono addestrati su "video congelati" (cioè immagini ripetute), costruiti a partire da campioni di immagini generati dal modello T2I personalizzato. Questo addestramento è facilitato da un nuovo modulo Motion Adapter, che ci permette di addestrarci su tali video statici preservando il prior di movimento del modello video. Al momento del test, rimuoviamo i moduli Motion Adapter e lasciamo solo i Spatial Adapters addestrati. Questo ripristina il prior di movimento del modello T2V mantenendo l'adesione al prior spaziale del modello T2I personalizzato. Dimostriamo l'efficacia del nostro approccio su diverse attività, tra cui la generazione personalizzata, stilizzata e condizionata. In tutti gli scenari valutati, il nostro metodo integra perfettamente il prior spaziale del modello T2I personalizzato con un prior di movimento fornito dal modello T2V.
English
Customizing text-to-image (T2I) models has seen tremendous progress recently,
particularly in areas such as personalization, stylization, and conditional
generation. However, expanding this progress to video generation is still in
its infancy, primarily due to the lack of customized video data. In this work,
we introduce Still-Moving, a novel generic framework for customizing a
text-to-video (T2V) model, without requiring any customized video data. The
framework applies to the prominent T2V design where the video model is built
over a text-to-image (T2I) model (e.g., via inflation). We assume access to a
customized version of the T2I model, trained only on still image data (e.g.,
using DreamBooth or StyleDrop). Naively plugging in the weights of the
customized T2I model into the T2V model often leads to significant artifacts or
insufficient adherence to the customization data. To overcome this issue, we
train lightweight Spatial Adapters that adjust the features produced
by the injected T2I layers. Importantly, our adapters are trained on
"frozen videos" (i.e., repeated images), constructed from image
samples generated by the customized T2I model. This training is facilitated by
a novel Motion Adapter module, which allows us to train on such
static videos while preserving the motion prior of the video model. At test
time, we remove the Motion Adapter modules and leave in only the trained
Spatial Adapters. This restores the motion prior of the T2V model while
adhering to the spatial prior of the customized T2I model. We demonstrate the
effectiveness of our approach on diverse tasks including personalized,
stylized, and conditional generation. In all evaluated scenarios, our method
seamlessly integrates the spatial prior of the customized T2I model with a
motion prior supplied by the T2V model.