ChatPaper.aiChatPaper

비디오 외삽을 위한 계층적 마스크 3D 확산 모델

Hierarchical Masked 3D Diffusion Model for Video Outpainting

September 5, 2023
저자: Fanda Fan, Chaoxu Guo, Litong Gong, Biao Wang, Tiezheng Ge, Yuning Jiang, Chunjie Luo, Jianfeng Zhan
cs.AI

초록

비디오 아웃페인팅은 비디오 프레임의 가장자리에서 누락된 영역을 적절히 완성하는 것을 목표로 합니다. 이미지 아웃페인팅과 비교했을 때, 모델이 채워진 영역의 시간적 일관성을 유지해야 한다는 추가적인 도전 과제를 안고 있습니다. 본 논문에서는 비디오 아웃페인팅을 위한 마스크된 3D 디퓨전 모델을 소개합니다. 우리는 3D 디퓨전 모델을 학습시키기 위해 마스크 모델링 기법을 사용합니다. 이를 통해 여러 비디오 클립 추론 결과를 연결하기 위해 여러 가이드 프레임을 사용할 수 있게 되며, 이로 인해 시간적 일관성을 보장하고 인접 프레임 간의 지터를 줄일 수 있습니다. 동시에, 비디오의 글로벌 프레임을 추출하여 프롬프트로 사용하고, 크로스-어텐션을 통해 현재 비디오 클립 이외의 정보를 모델에 제공합니다. 또한, 아티팩트 누적 문제를 완화하기 위해 하이브리드 코스-투-파인 추론 파이프라인을 도입했습니다. 기존의 코스-투-파인 파이프라인은 인필링 전략만을 사용하여 희소 프레임 간의 시간 간격이 너무 크기 때문에 성능 저하를 초래했습니다. 우리의 파이프라인은 마스크 모델링의 양방향 학습을 활용하여 희소 프레임을 생성할 때 인필링과 보간의 하이브리드 전략을 사용할 수 있습니다. 실험 결과, 우리의 방법이 비디오 아웃페인팅 작업에서 최첨단 성능을 달성함을 보여줍니다. 더 많은 결과는 https://fanfanda.github.io/M3DDM/에서 확인할 수 있습니다.
English
Video outpainting aims to adequately complete missing areas at the edges of video frames. Compared to image outpainting, it presents an additional challenge as the model should maintain the temporal consistency of the filled area. In this paper, we introduce a masked 3D diffusion model for video outpainting. We use the technique of mask modeling to train the 3D diffusion model. This allows us to use multiple guide frames to connect the results of multiple video clip inferences, thus ensuring temporal consistency and reducing jitter between adjacent frames. Meanwhile, we extract the global frames of the video as prompts and guide the model to obtain information other than the current video clip using cross-attention. We also introduce a hybrid coarse-to-fine inference pipeline to alleviate the artifact accumulation problem. The existing coarse-to-fine pipeline only uses the infilling strategy, which brings degradation because the time interval of the sparse frames is too large. Our pipeline benefits from bidirectional learning of the mask modeling and thus can employ a hybrid strategy of infilling and interpolation when generating sparse frames. Experiments show that our method achieves state-of-the-art results in video outpainting tasks. More results are provided at our https://fanfanda.github.io/M3DDM/.
PDF120December 15, 2024