ChatPaper.aiChatPaper

Movimento Constante: Geração de Vídeo Personalizado sem Dados de Vídeo Personalizados

Still-Moving: Customized Video Generation without Customized Video Data

July 11, 2024
Autores: Hila Chefer, Shiran Zada, Roni Paiss, Ariel Ephrat, Omer Tov, Michael Rubinstein, Lior Wolf, Tali Dekel, Tomer Michaeli, Inbar Mosseri
cs.AI

Resumo

A personalização de modelos texto-para-imagem (T2I) tem visto um progresso tremendo recentemente, especialmente em áreas como personalização, estilização e geração condicional. No entanto, expandir esse progresso para a geração de vídeos ainda está em seus estágios iniciais, principalmente devido à falta de dados de vídeo personalizados. Neste trabalho, apresentamos o Still-Moving, um novo framework genérico para personalizar um modelo texto-para-vídeo (T2V), sem a necessidade de dados de vídeo personalizados. O framework se aplica ao design proeminente T2V onde o modelo de vídeo é construído sobre um modelo texto-para-imagem (T2I) (por exemplo, via inflação). Pressupomos o acesso a uma versão personalizada do modelo T2I, treinado apenas em dados de imagens estáticas (por exemplo, usando DreamBooth ou StyleDrop). Simplesmente plugando os pesos do modelo T2I personalizado no modelo T2V frequentemente resulta em artefatos significativos ou adesão insuficiente aos dados de personalização. Para superar esse problema, treinamos Adaptadores Espaciais leves que ajustam as características produzidas pelas camadas T2I injetadas. Importante ressaltar que nossos adaptadores são treinados em "vídeos congelados" (ou seja, imagens repetidas), construídos a partir de amostras de imagens geradas pelo modelo T2I personalizado. Esse treinamento é facilitado por um módulo Adaptador de Movimento inovador, que nos permite treinar em tais vídeos estáticos enquanto preservamos a prioridade de movimento do modelo de vídeo. No momento do teste, removemos os módulos Adaptadores de Movimento e deixamos apenas os Adaptadores Espaciais treinados. Isso restaura a prioridade de movimento do modelo T2V enquanto adere à prioridade espacial do modelo T2I personalizado. Demonstramos a eficácia de nossa abordagem em diversas tarefas, incluindo geração personalizada, estilizada e condicional. Em todos os cenários avaliados, nosso método integra perfeitamente a prioridade espacial do modelo T2I personalizado com uma prioridade de movimento fornecida pelo modelo T2V.
English
Customizing text-to-image (T2I) models has seen tremendous progress recently, particularly in areas such as personalization, stylization, and conditional generation. However, expanding this progress to video generation is still in its infancy, primarily due to the lack of customized video data. In this work, we introduce Still-Moving, a novel generic framework for customizing a text-to-video (T2V) model, without requiring any customized video data. The framework applies to the prominent T2V design where the video model is built over a text-to-image (T2I) model (e.g., via inflation). We assume access to a customized version of the T2I model, trained only on still image data (e.g., using DreamBooth or StyleDrop). Naively plugging in the weights of the customized T2I model into the T2V model often leads to significant artifacts or insufficient adherence to the customization data. To overcome this issue, we train lightweight Spatial Adapters that adjust the features produced by the injected T2I layers. Importantly, our adapters are trained on "frozen videos" (i.e., repeated images), constructed from image samples generated by the customized T2I model. This training is facilitated by a novel Motion Adapter module, which allows us to train on such static videos while preserving the motion prior of the video model. At test time, we remove the Motion Adapter modules and leave in only the trained Spatial Adapters. This restores the motion prior of the T2V model while adhering to the spatial prior of the customized T2I model. We demonstrate the effectiveness of our approach on diverse tasks including personalized, stylized, and conditional generation. In all evaluated scenarios, our method seamlessly integrates the spatial prior of the customized T2I model with a motion prior supplied by the T2V model.
PDF132November 28, 2024