ChatPaper.aiChatPaper

MaskINT : Édition vidéo via des Transformers masqués interpolatifs non autorégressifs

MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers

December 19, 2023
Auteurs: Haoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, Xiaohui Xie
cs.AI

Résumé

Les récents progrès en intelligence artificielle générative ont considérablement amélioré l'édition d'images et de vidéos, en particulier dans le contexte du contrôle par prompts textuels. Les approches de pointe reposent principalement sur des modèles de diffusion pour accomplir ces tâches. Cependant, les exigences computationnelles des méthodes basées sur la diffusion sont substantielles, nécessitant souvent des jeux de données appariés à grande échelle pour l'entraînement, ce qui rend leur déploiement dans des applications pratiques difficile. Cette étude aborde ce défi en décomposant le processus d'édition vidéo basée sur le texte en deux étapes distinctes. Dans la première étape, nous exploitons un modèle de diffusion texte-à-image existant pour éditer simultanément quelques images clés sans ajustement supplémentaire. Dans la deuxième étape, nous introduisons un modèle efficace appelé MaskINT, basé sur des transformateurs génératifs masqués non autorégressifs et spécialisé dans l'interpolation d'images entre les images clés, bénéficiant de la guidance structurelle fournie par des images intermédiaires. Notre ensemble complet d'expériences illustre l'efficacité et l'efficience de MaskINT par rapport à d'autres méthodologies basées sur la diffusion. Cette recherche propose une solution pratique pour l'édition vidéo basée sur le texte et met en lumière le potentiel des transformateurs génératifs masqués non autorégressifs dans ce domaine.
English
Recent advances in generative AI have significantly enhanced image and video editing, particularly in the context of text prompt control. State-of-the-art approaches predominantly rely on diffusion models to accomplish these tasks. However, the computational demands of diffusion-based methods are substantial, often necessitating large-scale paired datasets for training, and therefore challenging the deployment in practical applications. This study addresses this challenge by breaking down the text-based video editing process into two separate stages. In the first stage, we leverage an existing text-to-image diffusion model to simultaneously edit a few keyframes without additional fine-tuning. In the second stage, we introduce an efficient model called MaskINT, which is built on non-autoregressive masked generative transformers and specializes in frame interpolation between the keyframes, benefiting from structural guidance provided by intermediate frames. Our comprehensive set of experiments illustrates the efficacy and efficiency of MaskINT when compared to other diffusion-based methodologies. This research offers a practical solution for text-based video editing and showcases the potential of non-autoregressive masked generative transformers in this domain.
PDF110December 15, 2024