Ultra3D: Generazione 3D Efficiente e ad Alta Fedeltà con Attenzione alle Parti
Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention
July 23, 2025
Autori: Yiwen Chen, Zhihao Li, Yikai Wang, Hu Zhang, Qin Li, Chi Zhang, Guosheng Lin
cs.AI
Abstract
I recenti progressi nelle rappresentazioni sparse di voxel hanno migliorato significativamente la qualità della generazione di contenuti 3D, consentendo una modellazione ad alta risoluzione con geometrie dettagliate. Tuttavia, i framework esistenti soffrono di gravi inefficienze computazionali a causa della complessità quadratica dei meccanismi di attenzione nelle loro pipeline di diffusione a due stadi. In questo lavoro, proponiamo Ultra3D, un framework efficiente per la generazione 3D che accelera notevolmente la modellazione di voxel sparsi senza compromettere la qualità. Il nostro metodo sfrutta la rappresentazione compatta VecSet per generare in modo efficiente una struttura approssimativa dell'oggetto nella prima fase, riducendo il numero di token e accelerando la previsione delle coordinate dei voxel. Per affinare le caratteristiche latenti per voxel nella seconda fase, introduciamo Part Attention, un meccanismo di attenzione localizzato e consapevole della geometria che limita il calcolo dell'attenzione a regioni semanticamente coerenti. Questo design preserva la continuità strutturale evitando l'attenzione globale non necessaria, ottenendo un'accelerazione fino a 6,7x nella generazione latente. Per supportare questo meccanismo, costruiamo una pipeline scalabile per l'annotazione delle parti che converte mesh grezzi in voxel sparsi etichettati per parti. Esperimenti estesi dimostrano che Ultra3D supporta la generazione 3D ad alta risoluzione a 1024 e raggiunge prestazioni all'avanguardia sia nella fedeltà visiva che nella preferenza degli utenti.
English
Recent advances in sparse voxel representations have significantly improved
the quality of 3D content generation, enabling high-resolution modeling with
fine-grained geometry. However, existing frameworks suffer from severe
computational inefficiencies due to the quadratic complexity of attention
mechanisms in their two-stage diffusion pipelines. In this work, we propose
Ultra3D, an efficient 3D generation framework that significantly accelerates
sparse voxel modeling without compromising quality. Our method leverages the
compact VecSet representation to efficiently generate a coarse object layout in
the first stage, reducing token count and accelerating voxel coordinate
prediction. To refine per-voxel latent features in the second stage, we
introduce Part Attention, a geometry-aware localized attention mechanism that
restricts attention computation within semantically consistent part regions.
This design preserves structural continuity while avoiding unnecessary global
attention, achieving up to 6.7x speed-up in latent generation. To support this
mechanism, we construct a scalable part annotation pipeline that converts raw
meshes into part-labeled sparse voxels. Extensive experiments demonstrate that
Ultra3D supports high-resolution 3D generation at 1024 resolution and achieves
state-of-the-art performance in both visual fidelity and user preference.