Still-Moving: Gepersonaliseerde Videogeneratie zonder Gepersonaliseerde Videodata
Still-Moving: Customized Video Generation without Customized Video Data
July 11, 2024
Auteurs: Hila Chefer, Shiran Zada, Roni Paiss, Ariel Ephrat, Omer Tov, Michael Rubinstein, Lior Wolf, Tali Dekel, Tomer Michaeli, Inbar Mosseri
cs.AI
Samenvatting
Het aanpassen van tekst-naar-beeld (T2I) modellen heeft recentelijk enorme vooruitgang geboekt, met name op gebieden zoals personalisatie, stilisering en conditionele generatie. Het uitbreiden van deze vooruitgang naar videogeneratie staat echter nog in de kinderschoenen, voornamelijk vanwege het gebrek aan aangepaste videodata. In dit werk introduceren we Still-Moving, een nieuw generiek framework voor het aanpassen van een tekst-naar-video (T2V) model, zonder dat er aangepaste videodata nodig is. Het framework is van toepassing op het prominente T2V-ontwerp waarbij het videomodel is gebouwd op een tekst-naar-beeld (T2I) model (bijvoorbeeld via inflatie). We gaan ervan uit dat er toegang is tot een aangepaste versie van het T2I-model, getraind op alleen stilstaande beelddata (bijvoorbeeld met DreamBooth of StyleDrop). Het naïef inpluggen van de gewichten van het aangepaste T2I-model in het T2V-model leidt vaak tot significante artefacten of onvoldoende naleving van de aangepaste data. Om dit probleem te overwinnen, trainen we lichtgewicht Spatial Adapters die de features aanpassen die worden geproduceerd door de geïnjecteerde T2I-lagen. Belangrijk is dat onze adapters worden getraind op "bevroren video's" (d.w.z. herhaalde beelden), geconstrueerd uit beeldmonsters gegenereerd door het aangepaste T2I-model. Deze training wordt gefaciliteerd door een nieuw Motion Adapter-module, waarmee we kunnen trainen op dergelijke statische video's terwijl het bewegingsprior van het videomodel behouden blijft. Tijdens de testfase verwijderen we de Motion Adapter-modules en laten we alleen de getrainde Spatial Adapters in. Dit herstelt het bewegingsprior van het T2V-model terwijl het ruimtelijke prior van het aangepaste T2I-model wordt nageleefd. We demonstreren de effectiviteit van onze aanpak op diverse taken, waaronder gepersonaliseerde, gestileerde en conditionele generatie. In alle geëvalueerde scenario's integreert onze methode naadloos het ruimtelijke prior van het aangepaste T2I-model met een bewegingsprior geleverd door het T2V-model.
English
Customizing text-to-image (T2I) models has seen tremendous progress recently,
particularly in areas such as personalization, stylization, and conditional
generation. However, expanding this progress to video generation is still in
its infancy, primarily due to the lack of customized video data. In this work,
we introduce Still-Moving, a novel generic framework for customizing a
text-to-video (T2V) model, without requiring any customized video data. The
framework applies to the prominent T2V design where the video model is built
over a text-to-image (T2I) model (e.g., via inflation). We assume access to a
customized version of the T2I model, trained only on still image data (e.g.,
using DreamBooth or StyleDrop). Naively plugging in the weights of the
customized T2I model into the T2V model often leads to significant artifacts or
insufficient adherence to the customization data. To overcome this issue, we
train lightweight Spatial Adapters that adjust the features produced
by the injected T2I layers. Importantly, our adapters are trained on
"frozen videos" (i.e., repeated images), constructed from image
samples generated by the customized T2I model. This training is facilitated by
a novel Motion Adapter module, which allows us to train on such
static videos while preserving the motion prior of the video model. At test
time, we remove the Motion Adapter modules and leave in only the trained
Spatial Adapters. This restores the motion prior of the T2V model while
adhering to the spatial prior of the customized T2I model. We demonstrate the
effectiveness of our approach on diverse tasks including personalized,
stylized, and conditional generation. In all evaluated scenarios, our method
seamlessly integrates the spatial prior of the customized T2I model with a
motion prior supplied by the T2V model.