ChatPaper.aiChatPaper

MaskINT: Edição de Vídeo via Transformadores Mascarados Interpolativos Não Autoregressivos

MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers

December 19, 2023
Autores: Haoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, Xiaohui Xie
cs.AI

Resumo

Avanços recentes em IA generativa têm aprimorado significativamente a edição de imagens e vídeos, particularmente no contexto de controle por prompts de texto. As abordagens mais avançadas atualmente dependem predominantemente de modelos de difusão para realizar essas tarefas. No entanto, as demandas computacionais dos métodos baseados em difusão são substanciais, frequentemente exigindo grandes conjuntos de dados pareados para treinamento, o que dificulta a implantação em aplicações práticas. Este estudo aborda esse desafio ao dividir o processo de edição de vídeo baseada em texto em dois estágios separados. No primeiro estágio, aproveitamos um modelo de difusão texto-para-imagem existente para editar simultaneamente alguns quadros-chave sem ajuste fino adicional. No segundo estágio, introduzimos um modelo eficiente chamado MaskINT, construído sobre transformadores generativos mascarados não autorregressivos e especializado em interpolação de quadros entre os quadros-chave, beneficiando-se da orientação estrutural fornecida por quadros intermediários. Nosso conjunto abrangente de experimentos ilustra a eficácia e eficiência do MaskINT em comparação com outras metodologias baseadas em difusão. Esta pesquisa oferece uma solução prática para edição de vídeo baseada em texto e demonstra o potencial dos transformadores generativos mascarados não autorregressivos nesse domínio.
English
Recent advances in generative AI have significantly enhanced image and video editing, particularly in the context of text prompt control. State-of-the-art approaches predominantly rely on diffusion models to accomplish these tasks. However, the computational demands of diffusion-based methods are substantial, often necessitating large-scale paired datasets for training, and therefore challenging the deployment in practical applications. This study addresses this challenge by breaking down the text-based video editing process into two separate stages. In the first stage, we leverage an existing text-to-image diffusion model to simultaneously edit a few keyframes without additional fine-tuning. In the second stage, we introduce an efficient model called MaskINT, which is built on non-autoregressive masked generative transformers and specializes in frame interpolation between the keyframes, benefiting from structural guidance provided by intermediate frames. Our comprehensive set of experiments illustrates the efficacy and efficiency of MaskINT when compared to other diffusion-based methodologies. This research offers a practical solution for text-based video editing and showcases the potential of non-autoregressive masked generative transformers in this domain.
PDF110December 15, 2024