Ultra3D : Génération 3D efficace et haute fidélité avec attention aux parties

papers.abstract

Les récentes avancées dans les représentations de voxels épars ont considérablement amélioré la qualité de la génération de contenu 3D, permettant une modélisation haute résolution avec une géométrie fine. Cependant, les frameworks existants souffrent de graves inefficacités computationnelles dues à la complexité quadratique des mécanismes d'attention dans leurs pipelines de diffusion en deux étapes. Dans ce travail, nous proposons Ultra3D, un framework de génération 3D efficace qui accélère significativement la modélisation de voxels épars sans compromettre la qualité. Notre méthode exploite la représentation compacte VecSet pour générer efficacement une disposition grossière de l'objet dans la première étape, réduisant ainsi le nombre de tokens et accélérant la prédiction des coordonnées des voxels. Pour affiner les caractéristiques latentes par voxel dans la deuxième étape, nous introduisons Part Attention, un mécanisme d'attention localisé et géométriquement conscient qui restreint le calcul de l'attention aux régions de parties sémantiquement cohérentes. Cette conception préserve la continuité structurelle tout en évitant l'attention globale inutile, atteignant une accélération jusqu'à 6,7 fois dans la génération latente. Pour soutenir ce mécanisme, nous construisons un pipeline d'annotation de parties scalable qui convertit des maillages bruts en voxels épars étiquetés par parties. Des expériences approfondies démontrent qu'Ultra3D prend en charge la génération 3D haute résolution à 1024 résolution et atteint des performances de pointe à la fois en fidélité visuelle et en préférence utilisateur.

English

Recent advances in sparse voxel representations have significantly improved the quality of 3D content generation, enabling high-resolution modeling with fine-grained geometry. However, existing frameworks suffer from severe computational inefficiencies due to the quadratic complexity of attention mechanisms in their two-stage diffusion pipelines. In this work, we propose Ultra3D, an efficient 3D generation framework that significantly accelerates sparse voxel modeling without compromising quality. Our method leverages the compact VecSet representation to efficiently generate a coarse object layout in the first stage, reducing token count and accelerating voxel coordinate prediction. To refine per-voxel latent features in the second stage, we introduce Part Attention, a geometry-aware localized attention mechanism that restricts attention computation within semantically consistent part regions. This design preserves structural continuity while avoiding unnecessary global attention, achieving up to 6.7x speed-up in latent generation. To support this mechanism, we construct a scalable part annotation pipeline that converts raw meshes into part-labeled sparse voxels. Extensive experiments demonstrate that Ultra3D supports high-resolution 3D generation at 1024 resolution and achieves state-of-the-art performance in both visual fidelity and user preference.

Ultra3D : Génération 3D efficace et haute fidélité avec attention aux parties

Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention

papers.abstract

Support