MVPaint: Difusão Multivisão Sincronizada para Pintar Qualquer Coisa em 3D

Resumo

A texturização é uma etapa crucial no fluxo de produção de ativos 3D, que aprimora o apelo visual e a diversidade dos ativos 3D. Apesar dos avanços recentes na geração de Texto-para-Textura (T2T), os métodos existentes frequentemente produzem resultados insatisfatórios, principalmente devido a descontinuidades locais, inconsistências em múltiplas visualizações e sua forte dependência nos resultados de desdobramento UV. Para enfrentar esses desafios, propomos um novo framework de texturização 3D de geração-refinamento chamado MVPaint, que pode gerar texturas contínuas de alta resolução, enfatizando a consistência multi-visualização. O MVPaint consiste principalmente em três módulos-chave. 1) Geração Sincronizada Multi-visualização (SMG). Dado um modelo de malha 3D, o MVPaint primeiro gera simultaneamente imagens de multi-visualização empregando um modelo SMG, o que resulta em texturizações grosseiras com partes não pintadas devido a observações ausentes. 2) Preenchimento 3D Espacialmente Consciente (S3I). Para garantir a texturização 3D completa, introduzimos o método S3I, especificamente projetado para texturizar efetivamente áreas previamente não observadas. 3) Refinamento UV (UVR). Além disso, o MVPaint emprega um módulo UVR para melhorar a qualidade da textura no espaço UV, que primeiro realiza uma Super-Resolução no espaço UV, seguida por um algoritmo de Suavização de Costura Espacialmente Consciente para revisar descontinuidades de texturização espacial causadas pelo desdobramento UV. Além disso, estabelecemos dois benchmarks de avaliação T2T: o benchmark T2T Objaverse e o benchmark T2T GSO, com base em malhas 3D de alta qualidade selecionadas do conjunto de dados Objaverse e de todo o conjunto de dados GSO, respectivamente. Resultados experimentais extensivos demonstram que o MVPaint supera os métodos existentes de ponta. Notavelmente, o MVPaint pode gerar texturas de alta fidelidade com problemas mínimos de Janus e uma consistência aprimorada entre visualizações cruzadas.

English

Texturing is a crucial step in the 3D asset production workflow, which enhances the visual appeal and diversity of 3D assets. Despite recent advancements in Text-to-Texture (T2T) generation, existing methods often yield subpar results, primarily due to local discontinuities, inconsistencies across multiple views, and their heavy dependence on UV unwrapping outcomes. To tackle these challenges, we propose a novel generation-refinement 3D texturing framework called MVPaint, which can generate high-resolution, seamless textures while emphasizing multi-view consistency. MVPaint mainly consists of three key modules. 1) Synchronized Multi-view Generation (SMG). Given a 3D mesh model, MVPaint first simultaneously generates multi-view images by employing an SMG model, which leads to coarse texturing results with unpainted parts due to missing observations. 2) Spatial-aware 3D Inpainting (S3I). To ensure complete 3D texturing, we introduce the S3I method, specifically designed to effectively texture previously unobserved areas. 3) UV Refinement (UVR). Furthermore, MVPaint employs a UVR module to improve the texture quality in the UV space, which first performs a UV-space Super-Resolution, followed by a Spatial-aware Seam-Smoothing algorithm for revising spatial texturing discontinuities caused by UV unwrapping. Moreover, we establish two T2T evaluation benchmarks: the Objaverse T2T benchmark and the GSO T2T benchmark, based on selected high-quality 3D meshes from the Objaverse dataset and the entire GSO dataset, respectively. Extensive experimental results demonstrate that MVPaint surpasses existing state-of-the-art methods. Notably, MVPaint could generate high-fidelity textures with minimal Janus issues and highly enhanced cross-view consistency.

MVPaint: Difusão Multivisão Sincronizada para Pintar Qualquer Coisa em 3D

MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D

Resumo

Support