MVPaint: Difusión Multi-Vista Sincronizada para Pintar Cualquier Objeto 3D
MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D
November 4, 2024
Autores: Wei Cheng, Juncheng Mu, Xianfang Zeng, Xin Chen, Anqi Pang, Chi Zhang, Zhibin Wang, Bin Fu, Gang Yu, Ziwei Liu, Liang Pan
cs.AI
Resumen
La texturización es un paso crucial en el flujo de trabajo de producción de activos 3D, que mejora el atractivo visual y la diversidad de los activos 3D. A pesar de los avances recientes en la generación de Texto a Textura (T2T), los métodos existentes a menudo producen resultados deficientes, principalmente debido a discontinuidades locales, inconsistencias en múltiples vistas y su fuerte dependencia de los resultados del desempaquetado UV. Para abordar estos desafíos, proponemos un novedoso marco de texturización 3D de generación-refinamiento llamado MVPaint, que puede generar texturas sin fisuras de alta resolución, enfatizando la consistencia multi-vista. MVPaint consta principalmente de tres módulos clave. 1) Generación Sincronizada Multi-vista (SMG). Dado un modelo de malla 3D, MVPaint primero genera simultáneamente imágenes multi-vista empleando un modelo SMG, lo que conduce a resultados de texturización gruesos con partes sin pintar debido a observaciones faltantes. 2) Relleno 3D con Conciencia Espacial (S3I). Para garantizar una texturización 3D completa, introducimos el método S3I, diseñado específicamente para texturizar eficazmente áreas previamente no observadas. 3) Refinamiento UV (UVR). Además, MVPaint utiliza un módulo UVR para mejorar la calidad de la textura en el espacio UV, que primero realiza una Super-Resolución en el espacio UV, seguido de un algoritmo de Suavizado de Costuras con Conciencia Espacial para revisar las discontinuidades de texturización espacial causadas por el desempaquetado UV. Además, establecemos dos bancos de pruebas de evaluación T2T: el banco de pruebas T2T de Objaverse y el banco de pruebas T2T de GSO, basados en mallas 3D de alta calidad seleccionadas del conjunto de datos de Objaverse y de todo el conjunto de datos de GSO, respectivamente. Los extensos resultados experimentales demuestran que MVPaint supera a los métodos existentes de última generación. Notablemente, MVPaint podría generar texturas de alta fidelidad con problemas mínimos de Janus y una consistencia entre vistas altamente mejorada.
English
Texturing is a crucial step in the 3D asset production workflow, which
enhances the visual appeal and diversity of 3D assets. Despite recent
advancements in Text-to-Texture (T2T) generation, existing methods often yield
subpar results, primarily due to local discontinuities, inconsistencies across
multiple views, and their heavy dependence on UV unwrapping outcomes. To tackle
these challenges, we propose a novel generation-refinement 3D texturing
framework called MVPaint, which can generate high-resolution, seamless textures
while emphasizing multi-view consistency. MVPaint mainly consists of three key
modules. 1) Synchronized Multi-view Generation (SMG). Given a 3D mesh model,
MVPaint first simultaneously generates multi-view images by employing an SMG
model, which leads to coarse texturing results with unpainted parts due to
missing observations. 2) Spatial-aware 3D Inpainting (S3I). To ensure complete
3D texturing, we introduce the S3I method, specifically designed to effectively
texture previously unobserved areas. 3) UV Refinement (UVR). Furthermore,
MVPaint employs a UVR module to improve the texture quality in the UV space,
which first performs a UV-space Super-Resolution, followed by a Spatial-aware
Seam-Smoothing algorithm for revising spatial texturing discontinuities caused
by UV unwrapping. Moreover, we establish two T2T evaluation benchmarks: the
Objaverse T2T benchmark and the GSO T2T benchmark, based on selected
high-quality 3D meshes from the Objaverse dataset and the entire GSO dataset,
respectively. Extensive experimental results demonstrate that MVPaint surpasses
existing state-of-the-art methods. Notably, MVPaint could generate
high-fidelity textures with minimal Janus issues and highly enhanced cross-view
consistency.Summary
AI-Generated Summary