ChatPaper.aiChatPaper

MaskINT: Videobewerking via interpolerende niet-autoregressieve gemaskeerde transformatoren

MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers

December 19, 2023
Auteurs: Haoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, Xiaohui Xie
cs.AI

Samenvatting

Recente vooruitgang in generatieve AI heeft beeld- en videobewerking aanzienlijk verbeterd, met name in de context van tekstpromptcontrole. State-of-the-art benaderingen maken voornamelijk gebruik van diffusiemodellen om deze taken uit te voeren. De rekenkundige eisen van diffusiegebaseerde methoden zijn echter aanzienlijk, wat vaak grote gepaarde datasets voor training vereist en daardoor de implementatie in praktische toepassingen bemoeilijkt. Deze studie gaat deze uitdaging aan door het tekstgebaseerde videobewerkingsproces op te splitsen in twee afzonderlijke fasen. In de eerste fase benutten we een bestaand tekst-naar-beeld diffusiemodel om enkele keyframes gelijktijdig te bewerken zonder aanvullende fine-tuning. In de tweede fase introduceren we een efficiënt model genaamd MaskINT, dat is gebaseerd op niet-autoregressieve gemaskeerde generatieve transformatoren en gespecialiseerd is in frame-interpolatie tussen de keyframes, waarbij het profiteert van structurele begeleiding door tussenliggende frames. Onze uitgebreide set experimenten illustreert de effectiviteit en efficiëntie van MaskINT in vergelijking met andere diffusiegebaseerde methodologieën. Dit onderzoek biedt een praktische oplossing voor tekstgebaseerde videobewerking en toont het potentieel van niet-autoregressieve gemaskeerde generatieve transformatoren in dit domein.
English
Recent advances in generative AI have significantly enhanced image and video editing, particularly in the context of text prompt control. State-of-the-art approaches predominantly rely on diffusion models to accomplish these tasks. However, the computational demands of diffusion-based methods are substantial, often necessitating large-scale paired datasets for training, and therefore challenging the deployment in practical applications. This study addresses this challenge by breaking down the text-based video editing process into two separate stages. In the first stage, we leverage an existing text-to-image diffusion model to simultaneously edit a few keyframes without additional fine-tuning. In the second stage, we introduce an efficient model called MaskINT, which is built on non-autoregressive masked generative transformers and specializes in frame interpolation between the keyframes, benefiting from structural guidance provided by intermediate frames. Our comprehensive set of experiments illustrates the efficacy and efficiency of MaskINT when compared to other diffusion-based methodologies. This research offers a practical solution for text-based video editing and showcases the potential of non-autoregressive masked generative transformers in this domain.
PDF110December 15, 2024