ChatPaper.aiChatPaper

Adaptador Genérico de Difusão 3D Utilizando Edição Controlada de Múltiplas Visões

Generic 3D Diffusion Adapter Using Controlled Multi-View Editing

March 18, 2024
Autores: Hansheng Chen, Ruoxi Shi, Yulin Liu, Bokui Shen, Jiayuan Gu, Gordon Wetzstein, Hao Su, Leonidas Guibas
cs.AI

Resumo

A síntese de objetos 3D em domínio aberto tem ficado atrás da síntese de imagens devido à limitação de dados e à maior complexidade computacional. Para preencher essa lacuna, trabalhos recentes investigaram a difusão multi-visão, mas muitas vezes falham em consistência 3D, qualidade visual ou eficiência. Este artigo propõe o MVEdit, que funciona como uma contraparte 3D do SDEdit, empregando amostragem ancestral para desruir conjuntamente imagens multi-visão e gerar malhas texturizadas de alta qualidade. Baseado em modelos de difusão 2D prontos para uso, o MVEdit alcança consistência 3D por meio de um Adaptador 3D sem necessidade de treinamento, que eleva as visões 2D do último passo de tempo em uma representação 3D coerente, e então condiciona as visões 2D do próximo passo de tempo usando visões renderizadas, sem comprometer a qualidade visual. Com um tempo de inferência de apenas 2-5 minutos, este framework alcança um melhor equilíbrio entre qualidade e velocidade do que a destilação de pontuação. O MVEdit é altamente versátil e extensível, com uma ampla gama de aplicações, incluindo geração de texto/imagem-para-3D, edição 3D-para-3D e síntese de texturas de alta qualidade. Em particular, as avaliações demonstram desempenho de ponta tanto em tarefas de imagem-para-3D quanto em geração de texturas guiada por texto. Além disso, introduzimos um método para ajuste fino de modelos de difusão latente 2D em pequenos conjuntos de dados 3D com recursos limitados, permitindo uma inicialização rápida de texto-para-3D em baixa resolução.
English
Open-domain 3D object synthesis has been lagging behind image synthesis due to limited data and higher computational complexity. To bridge this gap, recent works have investigated multi-view diffusion but often fall short in either 3D consistency, visual quality, or efficiency. This paper proposes MVEdit, which functions as a 3D counterpart of SDEdit, employing ancestral sampling to jointly denoise multi-view images and output high-quality textured meshes. Built on off-the-shelf 2D diffusion models, MVEdit achieves 3D consistency through a training-free 3D Adapter, which lifts the 2D views of the last timestep into a coherent 3D representation, then conditions the 2D views of the next timestep using rendered views, without uncompromising visual quality. With an inference time of only 2-5 minutes, this framework achieves better trade-off between quality and speed than score distillation. MVEdit is highly versatile and extendable, with a wide range of applications including text/image-to-3D generation, 3D-to-3D editing, and high-quality texture synthesis. In particular, evaluations demonstrate state-of-the-art performance in both image-to-3D and text-guided texture generation tasks. Additionally, we introduce a method for fine-tuning 2D latent diffusion models on small 3D datasets with limited resources, enabling fast low-resolution text-to-3D initialization.
PDF152December 15, 2024