Ultra3D : Génération 3D efficace et haute fidélité avec attention aux parties
Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention
July 23, 2025
papers.authors: Yiwen Chen, Zhihao Li, Yikai Wang, Hu Zhang, Qin Li, Chi Zhang, Guosheng Lin
cs.AI
papers.abstract
Les récentes avancées dans les représentations de voxels épars ont considérablement amélioré la qualité de la génération de contenu 3D, permettant une modélisation haute résolution avec une géométrie fine. Cependant, les frameworks existants souffrent de graves inefficacités computationnelles dues à la complexité quadratique des mécanismes d'attention dans leurs pipelines de diffusion en deux étapes. Dans ce travail, nous proposons Ultra3D, un framework de génération 3D efficace qui accélère significativement la modélisation de voxels épars sans compromettre la qualité. Notre méthode exploite la représentation compacte VecSet pour générer efficacement une disposition grossière de l'objet dans la première étape, réduisant ainsi le nombre de tokens et accélérant la prédiction des coordonnées des voxels. Pour affiner les caractéristiques latentes par voxel dans la deuxième étape, nous introduisons Part Attention, un mécanisme d'attention localisé et géométriquement conscient qui restreint le calcul de l'attention aux régions de parties sémantiquement cohérentes. Cette conception préserve la continuité structurelle tout en évitant l'attention globale inutile, atteignant une accélération jusqu'à 6,7 fois dans la génération latente. Pour soutenir ce mécanisme, nous construisons un pipeline d'annotation de parties scalable qui convertit des maillages bruts en voxels épars étiquetés par parties. Des expériences approfondies démontrent qu'Ultra3D prend en charge la génération 3D haute résolution à 1024 résolution et atteint des performances de pointe à la fois en fidélité visuelle et en préférence utilisateur.
English
Recent advances in sparse voxel representations have significantly improved
the quality of 3D content generation, enabling high-resolution modeling with
fine-grained geometry. However, existing frameworks suffer from severe
computational inefficiencies due to the quadratic complexity of attention
mechanisms in their two-stage diffusion pipelines. In this work, we propose
Ultra3D, an efficient 3D generation framework that significantly accelerates
sparse voxel modeling without compromising quality. Our method leverages the
compact VecSet representation to efficiently generate a coarse object layout in
the first stage, reducing token count and accelerating voxel coordinate
prediction. To refine per-voxel latent features in the second stage, we
introduce Part Attention, a geometry-aware localized attention mechanism that
restricts attention computation within semantically consistent part regions.
This design preserves structural continuity while avoiding unnecessary global
attention, achieving up to 6.7x speed-up in latent generation. To support this
mechanism, we construct a scalable part annotation pipeline that converts raw
meshes into part-labeled sparse voxels. Extensive experiments demonstrate that
Ultra3D supports high-resolution 3D generation at 1024 resolution and achieves
state-of-the-art performance in both visual fidelity and user preference.