Ultra3D: Generación eficiente y de alta fidelidad en 3D con atención a partes
Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention
July 23, 2025
Autores: Yiwen Chen, Zhihao Li, Yikai Wang, Hu Zhang, Qin Li, Chi Zhang, Guosheng Lin
cs.AI
Resumen
Los recientes avances en representaciones de vóxeles dispersos han mejorado significativamente la calidad de la generación de contenido 3D, permitiendo modelados de alta resolución con geometría detallada. Sin embargo, los marcos existentes sufren de graves ineficiencias computacionales debido a la complejidad cuadrática de los mecanismos de atención en sus pipelines de difusión de dos etapas. En este trabajo, proponemos Ultra3D, un marco eficiente para la generación 3D que acelera significativamente el modelado de vóxeles dispersos sin comprometer la calidad. Nuestro método aprovecha la representación compacta VecSet para generar eficientemente un diseño aproximado del objeto en la primera etapa, reduciendo el número de tokens y acelerando la predicción de coordenadas de vóxeles. Para refinar las características latentes por vóxel en la segunda etapa, introducimos Part Attention, un mecanismo de atención localizado consciente de la geometría que restringe el cálculo de atención a regiones de partes semánticamente consistentes. Este diseño preserva la continuidad estructural mientras evita la atención global innecesaria, logrando una aceleración de hasta 6.7x en la generación latente. Para respaldar este mecanismo, construimos un pipeline escalable de anotación de partes que convierte mallas sin procesar en vóxeles dispersos etiquetados por partes. Experimentos extensivos demuestran que Ultra3D soporta la generación 3D de alta resolución a 1024 y alcanza un rendimiento de vanguardia tanto en fidelidad visual como en preferencia de los usuarios.
English
Recent advances in sparse voxel representations have significantly improved
the quality of 3D content generation, enabling high-resolution modeling with
fine-grained geometry. However, existing frameworks suffer from severe
computational inefficiencies due to the quadratic complexity of attention
mechanisms in their two-stage diffusion pipelines. In this work, we propose
Ultra3D, an efficient 3D generation framework that significantly accelerates
sparse voxel modeling without compromising quality. Our method leverages the
compact VecSet representation to efficiently generate a coarse object layout in
the first stage, reducing token count and accelerating voxel coordinate
prediction. To refine per-voxel latent features in the second stage, we
introduce Part Attention, a geometry-aware localized attention mechanism that
restricts attention computation within semantically consistent part regions.
This design preserves structural continuity while avoiding unnecessary global
attention, achieving up to 6.7x speed-up in latent generation. To support this
mechanism, we construct a scalable part annotation pipeline that converts raw
meshes into part-labeled sparse voxels. Extensive experiments demonstrate that
Ultra3D supports high-resolution 3D generation at 1024 resolution and achieves
state-of-the-art performance in both visual fidelity and user preference.