CaPa : Synthèse Sculpte-et-Peins pour la Génération Efficace de Maillages Texturés en 4K

papers.abstract

La synthèse d'actifs 3D de haute qualité à partir d'entrées textuelles ou visuelles est devenue un objectif central dans la modélisation générative moderne. Malgré la prolifération des algorithmes de génération 3D, ils sont souvent confrontés à des défis tels que l'incohérence multi-vues, les temps de génération lents, la faible fidélité et les problèmes de reconstruction de surface. Bien que certaines études aient abordé certains de ces problèmes, une solution complète reste insaisissable. Dans cet article, nous présentons CaPa, un cadre de sculpture et de peinture qui génère efficacement des actifs 3D de haute fidélité. CaPa utilise un processus en deux étapes, en dissociant la génération de géométrie de la synthèse de texture. Initialement, un modèle de diffusion latente 3D génère une géométrie guidée par des entrées multi-vues, garantissant une cohérence structurelle à travers les perspectives. Ensuite, en tirant parti d'une nouvelle Attention Spatiallement Découplée, indépendante du modèle, le cadre synthétise des textures haute résolution (jusqu'à 4K) pour une géométrie donnée. De plus, nous proposons un algorithme d'inpainting d'occultation conscient de la 3D qui remplit les régions non texturées, donnant des résultats cohérents sur l'ensemble du modèle. Ce pipeline génère des actifs 3D de haute qualité en moins de 30 secondes, fournissant des sorties prêtes à l'emploi pour des applications commerciales. Les résultats expérimentaux démontrent que CaPa excelle à la fois en fidélité de texture et en stabilité géométrique, établissant une nouvelle norme pour la génération d'actifs 3D pratique et évolutive.

English

The synthesis of high-quality 3D assets from textual or visual inputs has become a central objective in modern generative modeling. Despite the proliferation of 3D generation algorithms, they frequently grapple with challenges such as multi-view inconsistency, slow generation times, low fidelity, and surface reconstruction problems. While some studies have addressed some of these issues, a comprehensive solution remains elusive. In this paper, we introduce CaPa, a carve-and-paint framework that generates high-fidelity 3D assets efficiently. CaPa employs a two-stage process, decoupling geometry generation from texture synthesis. Initially, a 3D latent diffusion model generates geometry guided by multi-view inputs, ensuring structural consistency across perspectives. Subsequently, leveraging a novel, model-agnostic Spatially Decoupled Attention, the framework synthesizes high-resolution textures (up to 4K) for a given geometry. Furthermore, we propose a 3D-aware occlusion inpainting algorithm that fills untextured regions, resulting in cohesive results across the entire model. This pipeline generates high-quality 3D assets in less than 30 seconds, providing ready-to-use outputs for commercial applications. Experimental results demonstrate that CaPa excels in both texture fidelity and geometric stability, establishing a new standard for practical, scalable 3D asset generation.

CaPa : Synthèse Sculpte-et-Peins pour la Génération Efficace de Maillages Texturés en 4K

CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation

papers.abstract

Support