ChatPaper.aiChatPaper

MaskINT: 보간적 비자기회귀 마스크 트랜스포머를 통한 비디오 편집

MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers

December 19, 2023
저자: Haoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, Xiaohui Xie
cs.AI

초록

최근 생성형 AI의 발전은 특히 텍스트 프롬프트 제어와 관련하여 이미지 및 비디오 편집을 크게 향상시켰습니다. 최첨단 접근 방식은 주로 확산 모델(diffusion models)에 의존하여 이러한 작업을 수행합니다. 그러나 확산 기반 방법의 계산 요구량은 상당하며, 대규모의 짝지어진 데이터셋을 학습에 필요로 하기 때문에 실제 응용 프로그램에서의 배포가 어려운 실정입니다. 본 연구는 텍스트 기반 비디오 편집 과정을 두 개의 별도 단계로 나누어 이 문제를 해결합니다. 첫 번째 단계에서는 기존의 텍스트-이미지 확산 모델을 활용하여 추가적인 미세 조정 없이 몇 개의 키프레임을 동시에 편집합니다. 두 번째 단계에서는 비자기회귀 마스크 생성 트랜스포머(non-autoregressive masked generative transformers)를 기반으로 한 MaskINT라는 효율적인 모델을 도입합니다. 이 모델은 중간 프레임에서 제공되는 구조적 지침을 활용하여 키프레임 간의 프레임 보간에 특화되어 있습니다. 우리의 포괄적인 실험 세트는 MaskINT가 다른 확산 기반 방법론과 비교했을 때의 효율성과 효과를 입증합니다. 이 연구는 텍스트 기반 비디오 편집을 위한 실용적인 해결책을 제시하며, 이 분야에서 비자기회귀 마스크 생성 트랜스포머의 잠재력을 보여줍니다.
English
Recent advances in generative AI have significantly enhanced image and video editing, particularly in the context of text prompt control. State-of-the-art approaches predominantly rely on diffusion models to accomplish these tasks. However, the computational demands of diffusion-based methods are substantial, often necessitating large-scale paired datasets for training, and therefore challenging the deployment in practical applications. This study addresses this challenge by breaking down the text-based video editing process into two separate stages. In the first stage, we leverage an existing text-to-image diffusion model to simultaneously edit a few keyframes without additional fine-tuning. In the second stage, we introduce an efficient model called MaskINT, which is built on non-autoregressive masked generative transformers and specializes in frame interpolation between the keyframes, benefiting from structural guidance provided by intermediate frames. Our comprehensive set of experiments illustrates the efficacy and efficiency of MaskINT when compared to other diffusion-based methodologies. This research offers a practical solution for text-based video editing and showcases the potential of non-autoregressive masked generative transformers in this domain.
PDF110December 15, 2024