MaskINT: Modifica video tramite Trasformatori Masked Interpolativi Non-autoregressivi
MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers
December 19, 2023
Autori: Haoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, Xiaohui Xie
cs.AI
Abstract
I recenti progressi nell'IA generativa hanno significativamente migliorato l'editing di immagini e video, in particolare nel contesto del controllo tramite prompt testuali. Gli approcci più avanzati si basano principalmente su modelli di diffusione per realizzare queste attività. Tuttavia, le esigenze computazionali dei metodi basati sulla diffusione sono considerevoli, spesso richiedendo grandi dataset accoppiati per l'addestramento, e quindi rappresentano una sfida per il dispiegamento in applicazioni pratiche. Questo studio affronta tale sfida suddividendo il processo di editing video basato su testo in due fasi separate. Nella prima fase, sfruttiamo un modello di diffusione testo-immagine esistente per modificare simultaneamente alcuni fotogrammi chiave senza ulteriori operazioni di fine-tuning. Nella seconda fase, introduciamo un modello efficiente chiamato MaskINT, basato su trasformatori generativi mascherati non autoregressivi e specializzato nell'interpolazione dei fotogrammi tra i fotogrammi chiave, beneficiando della guida strutturale fornita dai fotogrammi intermedi. Il nostro set completo di esperimenti illustra l'efficacia e l'efficienza di MaskINT rispetto ad altre metodologie basate sulla diffusione. Questa ricerca offre una soluzione pratica per l'editing video basato su testo e dimostra il potenziale dei trasformatori generativi mascherati non autoregressivi in questo dominio.
English
Recent advances in generative AI have significantly enhanced image and video
editing, particularly in the context of text prompt control. State-of-the-art
approaches predominantly rely on diffusion models to accomplish these tasks.
However, the computational demands of diffusion-based methods are substantial,
often necessitating large-scale paired datasets for training, and therefore
challenging the deployment in practical applications. This study addresses this
challenge by breaking down the text-based video editing process into two
separate stages. In the first stage, we leverage an existing text-to-image
diffusion model to simultaneously edit a few keyframes without additional
fine-tuning. In the second stage, we introduce an efficient model called
MaskINT, which is built on non-autoregressive masked generative transformers
and specializes in frame interpolation between the keyframes, benefiting from
structural guidance provided by intermediate frames. Our comprehensive set of
experiments illustrates the efficacy and efficiency of MaskINT when compared to
other diffusion-based methodologies. This research offers a practical solution
for text-based video editing and showcases the potential of non-autoregressive
masked generative transformers in this domain.