ChatPaper.aiChatPaper

Ultra3D: Generación eficiente y de alta fidelidad en 3D con atención a partes

Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention

July 23, 2025
Autores: Yiwen Chen, Zhihao Li, Yikai Wang, Hu Zhang, Qin Li, Chi Zhang, Guosheng Lin
cs.AI

Resumen

Los recientes avances en representaciones de vóxeles dispersos han mejorado significativamente la calidad de la generación de contenido 3D, permitiendo modelados de alta resolución con geometría detallada. Sin embargo, los marcos existentes sufren de graves ineficiencias computacionales debido a la complejidad cuadrática de los mecanismos de atención en sus pipelines de difusión de dos etapas. En este trabajo, proponemos Ultra3D, un marco eficiente para la generación 3D que acelera significativamente el modelado de vóxeles dispersos sin comprometer la calidad. Nuestro método aprovecha la representación compacta VecSet para generar eficientemente un diseño aproximado del objeto en la primera etapa, reduciendo el número de tokens y acelerando la predicción de coordenadas de vóxeles. Para refinar las características latentes por vóxel en la segunda etapa, introducimos Part Attention, un mecanismo de atención localizado consciente de la geometría que restringe el cálculo de atención a regiones de partes semánticamente consistentes. Este diseño preserva la continuidad estructural mientras evita la atención global innecesaria, logrando una aceleración de hasta 6.7x en la generación latente. Para respaldar este mecanismo, construimos un pipeline escalable de anotación de partes que convierte mallas sin procesar en vóxeles dispersos etiquetados por partes. Experimentos extensivos demuestran que Ultra3D soporta la generación 3D de alta resolución a 1024 y alcanza un rendimiento de vanguardia tanto en fidelidad visual como en preferencia de los usuarios.
English
Recent advances in sparse voxel representations have significantly improved the quality of 3D content generation, enabling high-resolution modeling with fine-grained geometry. However, existing frameworks suffer from severe computational inefficiencies due to the quadratic complexity of attention mechanisms in their two-stage diffusion pipelines. In this work, we propose Ultra3D, an efficient 3D generation framework that significantly accelerates sparse voxel modeling without compromising quality. Our method leverages the compact VecSet representation to efficiently generate a coarse object layout in the first stage, reducing token count and accelerating voxel coordinate prediction. To refine per-voxel latent features in the second stage, we introduce Part Attention, a geometry-aware localized attention mechanism that restricts attention computation within semantically consistent part regions. This design preserves structural continuity while avoiding unnecessary global attention, achieving up to 6.7x speed-up in latent generation. To support this mechanism, we construct a scalable part annotation pipeline that converts raw meshes into part-labeled sparse voxels. Extensive experiments demonstrate that Ultra3D supports high-resolution 3D generation at 1024 resolution and achieves state-of-the-art performance in both visual fidelity and user preference.
PDF301July 24, 2025