ChatPaper.aiChatPaper

Modelo de Difusão 3D Hierárquico com Mascaramento para Extrapolação de Vídeo

Hierarchical Masked 3D Diffusion Model for Video Outpainting

September 5, 2023
Autores: Fanda Fan, Chaoxu Guo, Litong Gong, Biao Wang, Tiezheng Ge, Yuning Jiang, Chunjie Luo, Jianfeng Zhan
cs.AI

Resumo

O video outpainting visa preencher adequadamente áreas ausentes nas bordas de quadros de vídeo. Em comparação com o image outpainting, ele apresenta um desafio adicional, pois o modelo deve manter a consistência temporal da área preenchida. Neste artigo, introduzimos um modelo de difusão 3D mascarado para video outpainting. Utilizamos a técnica de modelagem de máscara para treinar o modelo de difusão 3D. Isso nos permite usar múltiplos quadros de referência para conectar os resultados de múltiplas inferências de clipes de vídeo, garantindo assim a consistência temporal e reduzindo o tremor entre quadros adjacentes. Paralelamente, extraímos os quadros globais do vídeo como prompts e guiamos o modelo para obter informações além do clipe de vídeo atual usando atenção cruzada. Também introduzimos um pipeline de inferência híbrido de granularidade grossa para fina para aliviar o problema de acúmulo de artefatos. O pipeline existente de granularidade grossa para fina utiliza apenas a estratégia de preenchimento, o que causa degradação devido ao intervalo de tempo dos quadros esparsos ser muito grande. Nosso pipeline se beneficia do aprendizado bidirecional da modelagem de máscara e, portanto, pode empregar uma estratégia híbrida de preenchimento e interpolação ao gerar quadros esparsos. Experimentos mostram que nosso método alcança resultados de ponta em tarefas de video outpainting. Mais resultados são fornecidos em nosso https://fanfanda.github.io/M3DDM/.
English
Video outpainting aims to adequately complete missing areas at the edges of video frames. Compared to image outpainting, it presents an additional challenge as the model should maintain the temporal consistency of the filled area. In this paper, we introduce a masked 3D diffusion model for video outpainting. We use the technique of mask modeling to train the 3D diffusion model. This allows us to use multiple guide frames to connect the results of multiple video clip inferences, thus ensuring temporal consistency and reducing jitter between adjacent frames. Meanwhile, we extract the global frames of the video as prompts and guide the model to obtain information other than the current video clip using cross-attention. We also introduce a hybrid coarse-to-fine inference pipeline to alleviate the artifact accumulation problem. The existing coarse-to-fine pipeline only uses the infilling strategy, which brings degradation because the time interval of the sparse frames is too large. Our pipeline benefits from bidirectional learning of the mask modeling and thus can employ a hybrid strategy of infilling and interpolation when generating sparse frames. Experiments show that our method achieves state-of-the-art results in video outpainting tasks. More results are provided at our https://fanfanda.github.io/M3DDM/.
PDF130February 8, 2026