Adesivos Animados: Dando Vida aos Adesivos com Difusão de Vídeo
Animated Stickers: Bringing Stickers to Life with Video Diffusion
February 8, 2024
Autores: David Yan, Winnie Zhang, Luxin Zhang, Anmol Kalia, Dingkang Wang, Ankit Ramchandani, Miao Liu, Albert Pumarola, Edgar Schoenfeld, Elliot Blanchard, Krishna Narni, Yaqiao Luo, Lawrence Chen, Guan Pang, Ali Thabet, Peter Vajda, Amy Bearman, Licheng Yu
cs.AI
Resumo
Apresentamos os adesivos animados, um modelo de difusão de vídeo que gera uma animação condicionada a um prompt de texto e uma imagem estática de adesivo. Nosso modelo é construído sobre o estado da arte do modelo Emu de texto para imagem, com a adição de camadas temporais para modelar movimento. Devido à lacuna de domínio, ou seja, diferenças no estilo visual e de movimento, um modelo que teve bom desempenho na geração de vídeos naturais não consegue mais gerar vídeos vívidos quando aplicado a adesivos. Para superar essa lacuna, empregamos um pipeline de ajuste fino em duas etapas: primeiro com dados fracamente dentro do domínio, seguido por uma estratégia de humano no loop (HITL) que denominamos conjunto-de-professores. Ela destila as melhores qualidades de múltiplos professores em um modelo estudante menor. Mostramos que essa estratégia nos permite direcionar especificamente melhorias na qualidade do movimento, mantendo o estilo da imagem estática. Com otimizações de inferência, nosso modelo é capaz de gerar um vídeo de oito quadros com movimento de alta qualidade, interessante e relevante em menos de um segundo.
English
We introduce animated stickers, a video diffusion model which generates an
animation conditioned on a text prompt and static sticker image. Our model is
built on top of the state-of-the-art Emu text-to-image model, with the addition
of temporal layers to model motion. Due to the domain gap, i.e. differences in
visual and motion style, a model which performed well on generating natural
videos can no longer generate vivid videos when applied to stickers. To bridge
this gap, we employ a two-stage finetuning pipeline: first with weakly
in-domain data, followed by human-in-the-loop (HITL) strategy which we term
ensemble-of-teachers. It distills the best qualities of multiple teachers into
a smaller student model. We show that this strategy allows us to specifically
target improvements to motion quality while maintaining the style from the
static image. With inference optimizations, our model is able to generate an
eight-frame video with high-quality, interesting, and relevant motion in under
one second.