ChatPaper.aiChatPaper

MVInpainter: Aprendizado de Preenchimento Multi-Visão Consistente para Conectar Edição 2D e 3D

MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing

August 15, 2024
Autores: Chenjie Cao, Chaohui Yu, Yanwei Fu, Fan Wang, Xiangyang Xue
cs.AI

Resumo

A Síntese de Novas Visualizações (NVS) e a geração 3D alcançaram recentemente melhorias proeminentes. No entanto, esses trabalhos se concentram principalmente em categorias restritas ou ativos 3D sintéticos, o que desencoraja a generalização para cenas desafiadoras do mundo real e falha ao serem aplicados diretamente à síntese 2D. Além disso, esses métodos dependem fortemente das poses das câmeras, limitando suas aplicações no mundo real. Para superar esses problemas, propomos o MVInpainter, reformulando a edição 3D como uma tarefa de inpainting 2D multi-view. Especificamente, o MVInpainter inpaint parcialmente imagens multi-view com orientação de referência, em vez de gerar inextricavelmente uma visualização totalmente nova do zero, o que simplifica bastante a dificuldade do NVS no mundo real e aproveita pistas não mascaradas em vez de condições explícitas de pose. Para garantir consistência entre as visualizações, o MVInpainter é aprimorado por prioridades de vídeo a partir de componentes de movimento e orientação de aparência de referência concatenada. Além disso, o MVInpainter incorpora atenção por slots para agregar características de fluxo óptico de alto nível de regiões não mascaradas para controlar o movimento da câmera com treinamento e inferência livres de pose. Experimentos suficientes em nível de cena em conjuntos de dados centrados em objetos e voltados para a frente verificam a eficácia do MVInpainter, incluindo tarefas diversas, como remoção, síntese, inserção e substituição de objetos multi-view. A página do projeto é https://ewrfcas.github.io/MVInpainter/.
English
Novel View Synthesis (NVS) and 3D generation have recently achieved prominent improvements. However, these works mainly focus on confined categories or synthetic 3D assets, which are discouraged from generalizing to challenging in-the-wild scenes and fail to be employed with 2D synthesis directly. Moreover, these methods heavily depended on camera poses, limiting their real-world applications. To overcome these issues, we propose MVInpainter, re-formulating the 3D editing as a multi-view 2D inpainting task. Specifically, MVInpainter partially inpaints multi-view images with the reference guidance rather than intractably generating an entirely novel view from scratch, which largely simplifies the difficulty of in-the-wild NVS and leverages unmasked clues instead of explicit pose conditions. To ensure cross-view consistency, MVInpainter is enhanced by video priors from motion components and appearance guidance from concatenated reference key&value attention. Furthermore, MVInpainter incorporates slot attention to aggregate high-level optical flow features from unmasked regions to control the camera movement with pose-free training and inference. Sufficient scene-level experiments on both object-centric and forward-facing datasets verify the effectiveness of MVInpainter, including diverse tasks, such as multi-view object removal, synthesis, insertion, and replacement. The project page is https://ewrfcas.github.io/MVInpainter/.

Summary

AI-Generated Summary

PDF92November 26, 2024