Repaint123: Geração Rápida e de Alta Qualidade de 3D a Partir de uma Imagem com Repintura 2D Progressiva e Controlável
Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable 2D Repainting
December 20, 2023
Autores: Junwu Zhang, Zhenyu Tang, Yatian Pang, Xinhua Cheng, Peng Jin, Yida Wei, Wangbo Yu, Munan Ning, Li Yuan
cs.AI
Resumo
Métodos recentes de geração de 3D a partir de uma única imagem comumente adotam a Amostragem por Destilação de Pontuação (SDS). Apesar dos resultados impressionantes, existem várias deficiências, incluindo inconsistência multi-visual, texturas super-saturadas e super-suavizadas, além da baixa velocidade de geração. Para abordar essas deficiências, apresentamos o Repaint123, que visa mitigar o viés multi-visual e a degradação de textura, além de acelerar o processo de geração. A ideia central é combinar a poderosa capacidade de geração de imagens do modelo de difusão 2D e a habilidade de alinhamento de textura da estratégia de repintura para gerar imagens multi-visuais de alta qualidade com consistência. Propomos ainda uma força de repintura adaptativa consciente da visibilidade para regiões sobrepostas, a fim de melhorar a qualidade das imagens geradas durante o processo de repintura. As imagens geradas, de alta qualidade e consistência multi-visual, permitem o uso de uma simples perda de Erro Quadrático Médio (MSE) para a geração rápida de conteúdo 3D. Realizamos extensos experimentos e demonstramos que nosso método possui uma capacidade superior de gerar conteúdo 3D de alta qualidade com consistência multi-visual e texturas refinadas em 2 minutos, a partir do zero. O código está disponível em https://github.com/junwuzhang19/repaint123.
English
Recent one image to 3D generation methods commonly adopt Score Distillation
Sampling (SDS). Despite the impressive results, there are multiple deficiencies
including multi-view inconsistency, over-saturated and over-smoothed textures,
as well as the slow generation speed. To address these deficiencies, we present
Repaint123 to alleviate multi-view bias as well as texture degradation and
speed up the generation process. The core idea is to combine the powerful image
generation capability of the 2D diffusion model and the texture alignment
ability of the repainting strategy for generating high-quality multi-view
images with consistency. We further propose visibility-aware adaptive
repainting strength for overlap regions to enhance the generated image quality
in the repainting process. The generated high-quality and multi-view consistent
images enable the use of simple Mean Square Error (MSE) loss for fast 3D
content generation. We conduct extensive experiments and show that our method
has a superior ability to generate high-quality 3D content with multi-view
consistency and fine textures in 2 minutes from scratch. Code is at
https://github.com/junwuzhang19/repaint123.