CaPa : Synthèse Sculpte-et-Peins pour la Génération Efficace de Maillages Texturés en 4K
CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation
January 16, 2025
Auteurs: Hwan Heo, Jangyeong Kim, Seongyeong Lee, Jeong A Wi, Junyoung Choi, Sangjun Ahn
cs.AI
Résumé
La synthèse d'actifs 3D de haute qualité à partir d'entrées textuelles ou visuelles est devenue un objectif central dans la modélisation générative moderne. Malgré la prolifération des algorithmes de génération 3D, ils sont souvent confrontés à des défis tels que l'incohérence multi-vues, les temps de génération lents, la faible fidélité et les problèmes de reconstruction de surface. Bien que certaines études aient abordé certains de ces problèmes, une solution complète reste insaisissable. Dans cet article, nous présentons CaPa, un cadre de sculpture et de peinture qui génère efficacement des actifs 3D de haute fidélité. CaPa utilise un processus en deux étapes, en dissociant la génération de géométrie de la synthèse de texture. Initialement, un modèle de diffusion latente 3D génère une géométrie guidée par des entrées multi-vues, garantissant une cohérence structurelle à travers les perspectives. Ensuite, en tirant parti d'une nouvelle Attention Spatiallement Découplée, indépendante du modèle, le cadre synthétise des textures haute résolution (jusqu'à 4K) pour une géométrie donnée. De plus, nous proposons un algorithme d'inpainting d'occultation conscient de la 3D qui remplit les régions non texturées, donnant des résultats cohérents sur l'ensemble du modèle. Ce pipeline génère des actifs 3D de haute qualité en moins de 30 secondes, fournissant des sorties prêtes à l'emploi pour des applications commerciales. Les résultats expérimentaux démontrent que CaPa excelle à la fois en fidélité de texture et en stabilité géométrique, établissant une nouvelle norme pour la génération d'actifs 3D pratique et évolutive.
English
The synthesis of high-quality 3D assets from textual or visual inputs has
become a central objective in modern generative modeling. Despite the
proliferation of 3D generation algorithms, they frequently grapple with
challenges such as multi-view inconsistency, slow generation times, low
fidelity, and surface reconstruction problems. While some studies have
addressed some of these issues, a comprehensive solution remains elusive. In
this paper, we introduce CaPa, a carve-and-paint framework that
generates high-fidelity 3D assets efficiently. CaPa employs a two-stage
process, decoupling geometry generation from texture synthesis. Initially, a 3D
latent diffusion model generates geometry guided by multi-view inputs, ensuring
structural consistency across perspectives. Subsequently, leveraging a novel,
model-agnostic Spatially Decoupled Attention, the framework synthesizes
high-resolution textures (up to 4K) for a given geometry. Furthermore, we
propose a 3D-aware occlusion inpainting algorithm that fills untextured
regions, resulting in cohesive results across the entire model. This pipeline
generates high-quality 3D assets in less than 30 seconds, providing
ready-to-use outputs for commercial applications. Experimental results
demonstrate that CaPa excels in both texture fidelity and geometric stability,
establishing a new standard for practical, scalable 3D asset generation.Summary
AI-Generated Summary