Movimiento constante: Generación de video personalizado sin datos de video personalizados
Still-Moving: Customized Video Generation without Customized Video Data
July 11, 2024
Autores: Hila Chefer, Shiran Zada, Roni Paiss, Ariel Ephrat, Omer Tov, Michael Rubinstein, Lior Wolf, Tali Dekel, Tomer Michaeli, Inbar Mosseri
cs.AI
Resumen
La personalización de modelos de texto a imagen (T2I) ha experimentado un tremendo progreso recientemente, especialmente en áreas como la personalización, la estilización y la generación condicional. Sin embargo, expandir este progreso a la generación de videos aún está en pañales, principalmente debido a la falta de datos de video personalizados. En este trabajo, presentamos Still-Moving, un nuevo marco genérico para personalizar un modelo de texto a video (T2V), sin necesidad de datos de video personalizados. El marco se aplica al diseño prominente T2V donde el modelo de video se construye sobre un modelo de texto a imagen (T2I) (por ejemplo, a través de la inflación). Suponemos acceso a una versión personalizada del modelo T2I, entrenado solo con datos de imágenes fijas (por ejemplo, utilizando DreamBooth o StyleDrop). Simplemente enchufar los pesos del modelo T2I personalizado en el modelo T2V a menudo conduce a artefactos significativos o una adhesión insuficiente a los datos de personalización. Para superar este problema, entrenamos Adaptadores Espaciales livianos que ajustan las características producidas por las capas T2I inyectadas. Es importante destacar que nuestros adaptadores se entrenan en "videos congelados" (es decir, imágenes repetidas), construidos a partir de muestras de imágenes generadas por el modelo T2I personalizado. Este entrenamiento es facilitado por un módulo Adaptador de Movimiento novedoso, que nos permite entrenar en tales videos estáticos mientras se preserva la prioridad de movimiento del modelo de video. En el momento de la prueba, eliminamos los módulos Adaptador de Movimiento y dejamos solo los Adaptadores Espaciales entrenados. Esto restaura la prioridad de movimiento del modelo T2V mientras se adhiere a la prioridad espacial del modelo T2I personalizado. Demostramos la efectividad de nuestro enfoque en diversas tareas, incluyendo generación personalizada, estilizada y condicional. En todos los escenarios evaluados, nuestro método integra perfectamente la prioridad espacial del modelo T2I personalizado con una prioridad de movimiento suministrada por el modelo T2V.
English
Customizing text-to-image (T2I) models has seen tremendous progress recently,
particularly in areas such as personalization, stylization, and conditional
generation. However, expanding this progress to video generation is still in
its infancy, primarily due to the lack of customized video data. In this work,
we introduce Still-Moving, a novel generic framework for customizing a
text-to-video (T2V) model, without requiring any customized video data. The
framework applies to the prominent T2V design where the video model is built
over a text-to-image (T2I) model (e.g., via inflation). We assume access to a
customized version of the T2I model, trained only on still image data (e.g.,
using DreamBooth or StyleDrop). Naively plugging in the weights of the
customized T2I model into the T2V model often leads to significant artifacts or
insufficient adherence to the customization data. To overcome this issue, we
train lightweight Spatial Adapters that adjust the features produced
by the injected T2I layers. Importantly, our adapters are trained on
"frozen videos" (i.e., repeated images), constructed from image
samples generated by the customized T2I model. This training is facilitated by
a novel Motion Adapter module, which allows us to train on such
static videos while preserving the motion prior of the video model. At test
time, we remove the Motion Adapter modules and leave in only the trained
Spatial Adapters. This restores the motion prior of the T2V model while
adhering to the spatial prior of the customized T2I model. We demonstrate the
effectiveness of our approach on diverse tasks including personalized,
stylized, and conditional generation. In all evaluated scenarios, our method
seamlessly integrates the spatial prior of the customized T2I model with a
motion prior supplied by the T2V model.Summary
AI-Generated Summary