Bewegung ohne Bewegung: Individuelle Videogenerierung ohne individuelle Videodaten
Still-Moving: Customized Video Generation without Customized Video Data
July 11, 2024
Autoren: Hila Chefer, Shiran Zada, Roni Paiss, Ariel Ephrat, Omer Tov, Michael Rubinstein, Lior Wolf, Tali Dekel, Tomer Michaeli, Inbar Mosseri
cs.AI
Zusammenfassung
Die Anpassung von Text-zu-Bild (T2I) Modellen hat in letzter Zeit enorme Fortschritte gemacht, insbesondere in Bereichen wie Personalisierung, Stilisierung und bedingter Generierung. Die Erweiterung dieses Fortschritts auf die Videogenerierung steckt jedoch noch in den Kinderschuhen, hauptsächlich aufgrund des Mangels an angepassten Videodaten. In dieser Arbeit stellen wir Still-Moving vor, ein neuartiges generisches Framework zur Anpassung eines Text-zu-Video (T2V) Modells, ohne dass angepasste Videodaten erforderlich sind. Das Framework gilt für das prominente T2V-Design, bei dem das Videomodell über ein Text-zu-Bild (T2I) Modell aufgebaut wird (z. B. über Inflation). Wir gehen davon aus, dass eine angepasste Version des T2I-Modells vorliegt, das nur auf Standbildern trainiert wurde (z. B. unter Verwendung von DreamBooth oder StyleDrop). Das einfache Einsetzen der Gewichte des angepassten T2I-Modells in das T2V-Modell führt häufig zu erheblichen Artefakten oder unzureichender Einhaltung der Anpassungsdaten. Um dieses Problem zu überwinden, trainieren wir leichte räumliche Adapter, die die von den eingespritzten T2I-Schichten erzeugten Merkmale anpassen. Wichtig ist, dass unsere Adapter auf "eingefrorenen Videos" (d. h. wiederholten Bildern) trainiert werden, die aus Bildbeispielen generiert wurden, die vom angepassten T2I-Modell stammen. Dieses Training wird durch ein neuartiges Motion Adapter-Modul erleichtert, das es uns ermöglicht, auf solchen statischen Videos zu trainieren, während das Bewegungsprior des Videomodells erhalten bleibt. Zur Testzeit entfernen wir die Motion Adapter-Module und lassen nur die trainierten räumlichen Adapter aktiv. Dadurch wird das Bewegungsprior des T2V-Modells wiederhergestellt, während das räumliche Prior des angepassten T2I-Modells eingehalten wird. Wir zeigen die Wirksamkeit unseres Ansatzes bei verschiedenen Aufgaben, einschließlich personalisierter, stilisierter und bedingter Generierung. In allen bewerteten Szenarien integriert unsere Methode nahtlos das räumliche Prior des angepassten T2I-Modells mit einem Bewegungsprior, der vom T2V-Modell bereitgestellt wird.
English
Customizing text-to-image (T2I) models has seen tremendous progress recently,
particularly in areas such as personalization, stylization, and conditional
generation. However, expanding this progress to video generation is still in
its infancy, primarily due to the lack of customized video data. In this work,
we introduce Still-Moving, a novel generic framework for customizing a
text-to-video (T2V) model, without requiring any customized video data. The
framework applies to the prominent T2V design where the video model is built
over a text-to-image (T2I) model (e.g., via inflation). We assume access to a
customized version of the T2I model, trained only on still image data (e.g.,
using DreamBooth or StyleDrop). Naively plugging in the weights of the
customized T2I model into the T2V model often leads to significant artifacts or
insufficient adherence to the customization data. To overcome this issue, we
train lightweight Spatial Adapters that adjust the features produced
by the injected T2I layers. Importantly, our adapters are trained on
"frozen videos" (i.e., repeated images), constructed from image
samples generated by the customized T2I model. This training is facilitated by
a novel Motion Adapter module, which allows us to train on such
static videos while preserving the motion prior of the video model. At test
time, we remove the Motion Adapter modules and leave in only the trained
Spatial Adapters. This restores the motion prior of the T2V model while
adhering to the spatial prior of the customized T2I model. We demonstrate the
effectiveness of our approach on diverse tasks including personalized,
stylized, and conditional generation. In all evaluated scenarios, our method
seamlessly integrates the spatial prior of the customized T2I model with a
motion prior supplied by the T2V model.Summary
AI-Generated Summary