MaskINT: Edição de Vídeo via Transformadores Mascarados Interpolativos Não Autoregressivos
MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers
December 19, 2023
Autores: Haoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, Xiaohui Xie
cs.AI
Resumo
Avanços recentes em IA generativa têm aprimorado significativamente a edição de imagens e vídeos, particularmente no contexto de controle por prompts de texto. As abordagens mais avançadas atualmente dependem predominantemente de modelos de difusão para realizar essas tarefas. No entanto, as demandas computacionais dos métodos baseados em difusão são substanciais, frequentemente exigindo grandes conjuntos de dados pareados para treinamento, o que dificulta a implantação em aplicações práticas. Este estudo aborda esse desafio ao dividir o processo de edição de vídeo baseada em texto em dois estágios separados. No primeiro estágio, aproveitamos um modelo de difusão texto-para-imagem existente para editar simultaneamente alguns quadros-chave sem ajuste fino adicional. No segundo estágio, introduzimos um modelo eficiente chamado MaskINT, construído sobre transformadores generativos mascarados não autorregressivos e especializado em interpolação de quadros entre os quadros-chave, beneficiando-se da orientação estrutural fornecida por quadros intermediários. Nosso conjunto abrangente de experimentos ilustra a eficácia e eficiência do MaskINT em comparação com outras metodologias baseadas em difusão. Esta pesquisa oferece uma solução prática para edição de vídeo baseada em texto e demonstra o potencial dos transformadores generativos mascarados não autorregressivos nesse domínio.
English
Recent advances in generative AI have significantly enhanced image and video
editing, particularly in the context of text prompt control. State-of-the-art
approaches predominantly rely on diffusion models to accomplish these tasks.
However, the computational demands of diffusion-based methods are substantial,
often necessitating large-scale paired datasets for training, and therefore
challenging the deployment in practical applications. This study addresses this
challenge by breaking down the text-based video editing process into two
separate stages. In the first stage, we leverage an existing text-to-image
diffusion model to simultaneously edit a few keyframes without additional
fine-tuning. In the second stage, we introduce an efficient model called
MaskINT, which is built on non-autoregressive masked generative transformers
and specializes in frame interpolation between the keyframes, benefiting from
structural guidance provided by intermediate frames. Our comprehensive set of
experiments illustrates the efficacy and efficiency of MaskINT when compared to
other diffusion-based methodologies. This research offers a practical solution
for text-based video editing and showcases the potential of non-autoregressive
masked generative transformers in this domain.