CaPa: Sintesi Carve-n-Paint per la Generazione Efficient di Mesh Testurizzate in 4K
CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation
January 16, 2025
Autori: Hwan Heo, Jangyeong Kim, Seongyeong Lee, Jeong A Wi, Junyoung Choi, Sangjun Ahn
cs.AI
Abstract
La sintesi di asset 3D di alta qualità da input testuali o visivi è diventata un obiettivo centrale nella moderna modellazione generativa. Nonostante la proliferazione degli algoritmi di generazione 3D, spesso si confrontano con sfide come l'incoerenza multi-vista, tempi di generazione lenti, bassa fedeltà e problemi di ricostruzione delle superfici. Sebbene alcuni studi abbiano affrontato alcuni di questi problemi, una soluzione completa resta sfuggente. In questo articolo, presentiamo CaPa, un framework di intaglio e pittura che genera asset 3D ad alta fedeltà in modo efficiente. CaPa utilizza un processo a due fasi, separando la generazione della geometria dalla sintesi delle texture. Inizialmente, un modello di diffusione latente 3D genera la geometria guidata da input multi-vista, garantendo coerenza strutturale tra prospettive. Successivamente, sfruttando un'innovativa Attenzione Spazialmente Decoppiata, il framework sintetizza texture ad alta risoluzione (fino a 4K) per una data geometria. Inoltre, proponiamo un algoritmo di inpainting di occlusione consapevole del 3D che riempie le regioni non testurizzate, ottenendo risultati coerenti sull'intero modello. Questo flusso di lavoro genera asset 3D di alta qualità in meno di 30 secondi, fornendo output pronti all'uso per applicazioni commerciali. I risultati sperimentali dimostrano che CaPa eccelle sia nella fedeltà delle texture che nella stabilità geometrica, stabilendo un nuovo standard per la generazione pratica e scalabile di asset 3D.
English
The synthesis of high-quality 3D assets from textual or visual inputs has
become a central objective in modern generative modeling. Despite the
proliferation of 3D generation algorithms, they frequently grapple with
challenges such as multi-view inconsistency, slow generation times, low
fidelity, and surface reconstruction problems. While some studies have
addressed some of these issues, a comprehensive solution remains elusive. In
this paper, we introduce CaPa, a carve-and-paint framework that
generates high-fidelity 3D assets efficiently. CaPa employs a two-stage
process, decoupling geometry generation from texture synthesis. Initially, a 3D
latent diffusion model generates geometry guided by multi-view inputs, ensuring
structural consistency across perspectives. Subsequently, leveraging a novel,
model-agnostic Spatially Decoupled Attention, the framework synthesizes
high-resolution textures (up to 4K) for a given geometry. Furthermore, we
propose a 3D-aware occlusion inpainting algorithm that fills untextured
regions, resulting in cohesive results across the entire model. This pipeline
generates high-quality 3D assets in less than 30 seconds, providing
ready-to-use outputs for commercial applications. Experimental results
demonstrate that CaPa excels in both texture fidelity and geometric stability,
establishing a new standard for practical, scalable 3D asset generation.Summary
AI-Generated Summary