ChatPaper.aiChatPaper

CaPa: Síntesis de Tallado y Pintura para la Generación Eficiente de Mallas Texturizadas en 4K

CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation

January 16, 2025
Autores: Hwan Heo, Jangyeong Kim, Seongyeong Lee, Jeong A Wi, Junyoung Choi, Sangjun Ahn
cs.AI

Resumen

La síntesis de activos 3D de alta calidad a partir de entradas textuales o visuales se ha convertido en un objetivo central en la modelización generativa moderna. A pesar de la proliferación de algoritmos de generación 3D, a menudo se enfrentan a desafíos como la inconsistencia multi-vista, tiempos de generación lentos, baja fidelidad y problemas de reconstrucción de superficies. Aunque algunos estudios han abordado algunos de estos problemas, una solución integral sigue siendo esquiva. En este documento, presentamos CaPa, un marco de trabajo de tallado y pintura que genera activos 3D de alta fidelidad de manera eficiente. CaPa emplea un proceso de dos etapas, desacoplando la generación de geometría de la síntesis de texturas. Inicialmente, un modelo de difusión latente 3D genera geometría guiada por entradas multi-vista, asegurando consistencia estructural en todas las perspectivas. Posteriormente, aprovechando una Atención Espacialmente Desacoplada novedosa y agnóstica al modelo, el marco sintetiza texturas de alta resolución (de hasta 4K) para una geometría dada. Además, proponemos un algoritmo de rellenado de oclusión consciente de 3D que completa regiones sin textura, dando como resultado resultados cohesivos en todo el modelo. Esta secuencia de procesos genera activos 3D de alta calidad en menos de 30 segundos, proporcionando salidas listas para su uso en aplicaciones comerciales. Los resultados experimentales demuestran que CaPa destaca tanto en fidelidad de textura como en estabilidad geométrica, estableciendo un nuevo estándar para la generación práctica y escalable de activos 3D.
English
The synthesis of high-quality 3D assets from textual or visual inputs has become a central objective in modern generative modeling. Despite the proliferation of 3D generation algorithms, they frequently grapple with challenges such as multi-view inconsistency, slow generation times, low fidelity, and surface reconstruction problems. While some studies have addressed some of these issues, a comprehensive solution remains elusive. In this paper, we introduce CaPa, a carve-and-paint framework that generates high-fidelity 3D assets efficiently. CaPa employs a two-stage process, decoupling geometry generation from texture synthesis. Initially, a 3D latent diffusion model generates geometry guided by multi-view inputs, ensuring structural consistency across perspectives. Subsequently, leveraging a novel, model-agnostic Spatially Decoupled Attention, the framework synthesizes high-resolution textures (up to 4K) for a given geometry. Furthermore, we propose a 3D-aware occlusion inpainting algorithm that fills untextured regions, resulting in cohesive results across the entire model. This pipeline generates high-quality 3D assets in less than 30 seconds, providing ready-to-use outputs for commercial applications. Experimental results demonstrate that CaPa excels in both texture fidelity and geometric stability, establishing a new standard for practical, scalable 3D asset generation.

Summary

AI-Generated Summary

PDF183January 17, 2025