Still-Moving : Génération de vidéos personnalisées sans données vidéo personnalisées
Still-Moving: Customized Video Generation without Customized Video Data
July 11, 2024
Auteurs: Hila Chefer, Shiran Zada, Roni Paiss, Ariel Ephrat, Omer Tov, Michael Rubinstein, Lior Wolf, Tali Dekel, Tomer Michaeli, Inbar Mosseri
cs.AI
Résumé
La personnalisation des modèles de génération d'images à partir de texte (T2I) a connu des progrès considérables récemment, notamment dans des domaines tels que la personnalisation, la stylisation et la génération conditionnelle. Cependant, étendre ces avancées à la génération de vidéos en est encore à ses balbutiements, principalement en raison du manque de données vidéo personnalisées. Dans ce travail, nous présentons Still-Moving, un nouveau cadre générique pour personnaliser un modèle de génération de vidéos à partir de texte (T2V), sans nécessiter de données vidéo personnalisées. Ce cadre s'applique à l'architecture T2V dominante où le modèle vidéo est construit sur un modèle T2I (par exemple, via inflation). Nous supposons avoir accès à une version personnalisée du modèle T2I, entraînée uniquement sur des données d'images fixes (par exemple, en utilisant DreamBooth ou StyleDrop). Intégrer naïvement les poids du modèle T2I personnalisé dans le modèle T2V entraîne souvent des artefacts importants ou une adhésion insuffisante aux données de personnalisation. Pour surmonter ce problème, nous entraînons des adaptateurs spatiaux légers qui ajustent les caractéristiques produites par les couches T2I injectées. De manière cruciale, nos adaptateurs sont entraînés sur des "vidéos figées" (c'est-à-dire des images répétées), construites à partir d'échantillons d'images générés par le modèle T2I personnalisé. Cet entraînement est facilité par un nouveau module d'adaptation de mouvement, qui nous permet de nous entraîner sur de telles vidéos statiques tout en préservant le prior de mouvement du modèle vidéo. Au moment du test, nous supprimons les modules d'adaptation de mouvement et ne conservons que les adaptateurs spatiaux entraînés. Cela restaure le prior de mouvement du modèle T2V tout en respectant le prior spatial du modèle T2I personnalisé. Nous démontrons l'efficacité de notre approche sur diverses tâches, notamment la génération personnalisée, stylisée et conditionnelle. Dans tous les scénarios évalués, notre méthode intègre de manière transparente le prior spatial du modèle T2I personnalisé avec un prior de mouvement fourni par le modèle T2V.
English
Customizing text-to-image (T2I) models has seen tremendous progress recently,
particularly in areas such as personalization, stylization, and conditional
generation. However, expanding this progress to video generation is still in
its infancy, primarily due to the lack of customized video data. In this work,
we introduce Still-Moving, a novel generic framework for customizing a
text-to-video (T2V) model, without requiring any customized video data. The
framework applies to the prominent T2V design where the video model is built
over a text-to-image (T2I) model (e.g., via inflation). We assume access to a
customized version of the T2I model, trained only on still image data (e.g.,
using DreamBooth or StyleDrop). Naively plugging in the weights of the
customized T2I model into the T2V model often leads to significant artifacts or
insufficient adherence to the customization data. To overcome this issue, we
train lightweight Spatial Adapters that adjust the features produced
by the injected T2I layers. Importantly, our adapters are trained on
"frozen videos" (i.e., repeated images), constructed from image
samples generated by the customized T2I model. This training is facilitated by
a novel Motion Adapter module, which allows us to train on such
static videos while preserving the motion prior of the video model. At test
time, we remove the Motion Adapter modules and leave in only the trained
Spatial Adapters. This restores the motion prior of the T2V model while
adhering to the spatial prior of the customized T2I model. We demonstrate the
effectiveness of our approach on diverse tasks including personalized,
stylized, and conditional generation. In all evaluated scenarios, our method
seamlessly integrates the spatial prior of the customized T2I model with a
motion prior supplied by the T2V model.Summary
AI-Generated Summary