MaskINT: Modifica video tramite Trasformatori Masked Interpolativi Non-autoregressivi

Abstract

I recenti progressi nell'IA generativa hanno significativamente migliorato l'editing di immagini e video, in particolare nel contesto del controllo tramite prompt testuali. Gli approcci più avanzati si basano principalmente su modelli di diffusione per realizzare queste attività. Tuttavia, le esigenze computazionali dei metodi basati sulla diffusione sono considerevoli, spesso richiedendo grandi dataset accoppiati per l'addestramento, e quindi rappresentano una sfida per il dispiegamento in applicazioni pratiche. Questo studio affronta tale sfida suddividendo il processo di editing video basato su testo in due fasi separate. Nella prima fase, sfruttiamo un modello di diffusione testo-immagine esistente per modificare simultaneamente alcuni fotogrammi chiave senza ulteriori operazioni di fine-tuning. Nella seconda fase, introduciamo un modello efficiente chiamato MaskINT, basato su trasformatori generativi mascherati non autoregressivi e specializzato nell'interpolazione dei fotogrammi tra i fotogrammi chiave, beneficiando della guida strutturale fornita dai fotogrammi intermedi. Il nostro set completo di esperimenti illustra l'efficacia e l'efficienza di MaskINT rispetto ad altre metodologie basate sulla diffusione. Questa ricerca offre una soluzione pratica per l'editing video basato su testo e dimostra il potenziale dei trasformatori generativi mascherati non autoregressivi in questo dominio.

English

Recent advances in generative AI have significantly enhanced image and video editing, particularly in the context of text prompt control. State-of-the-art approaches predominantly rely on diffusion models to accomplish these tasks. However, the computational demands of diffusion-based methods are substantial, often necessitating large-scale paired datasets for training, and therefore challenging the deployment in practical applications. This study addresses this challenge by breaking down the text-based video editing process into two separate stages. In the first stage, we leverage an existing text-to-image diffusion model to simultaneously edit a few keyframes without additional fine-tuning. In the second stage, we introduce an efficient model called MaskINT, which is built on non-autoregressive masked generative transformers and specializes in frame interpolation between the keyframes, benefiting from structural guidance provided by intermediate frames. Our comprehensive set of experiments illustrates the efficacy and efficiency of MaskINT when compared to other diffusion-based methodologies. This research offers a practical solution for text-based video editing and showcases the potential of non-autoregressive masked generative transformers in this domain.

MaskINT: Modifica video tramite Trasformatori Masked Interpolativi Non-autoregressivi

MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers

Abstract

Support