Ultra3D:パートアテンションを用いた効率的かつ高精細な3D生成
Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention
July 23, 2025
著者: Yiwen Chen, Zhihao Li, Yikai Wang, Hu Zhang, Qin Li, Chi Zhang, Guosheng Lin
cs.AI
要旨
最近のスパースボクセル表現の進展により、高解像度かつ細密なジオメトリを備えた3Dコンテンツ生成の品質が大幅に向上しました。しかし、既存のフレームワークでは、2段階の拡散パイプラインにおけるアテンションメカニズムの二次的な計算複雑性により、深刻な計算効率の低下が生じています。本研究では、品質を損なうことなくスパースボクセルモデリングを大幅に高速化する効率的な3D生成フレームワークであるUltra3Dを提案します。本手法では、コンパクトなVecSet表現を活用して、第1段階で粗いオブジェクトレイアウトを効率的に生成し、トークン数を削減してボクセル座標予測を加速します。第2段階でボクセルごとの潜在特徴を洗練するために、意味的に一貫したパート領域内でアテンション計算を制限するジオメトリを考慮した局所化アテンションメカニズムであるPart Attentionを導入します。この設計により、構造的な連続性を保ちながら不必要なグローバルアテンションを回避し、潜在生成において最大6.7倍の高速化を実現します。このメカニズムをサポートするために、生のメッシュをパートラベル付きスパースボクセルに変換するスケーラブルなパートアノテーションパイプラインを構築します。大規模な実験により、Ultra3Dが1024解像度での高解像度3D生成をサポートし、視覚的忠実度とユーザー選好の両方において最先端の性能を達成することが実証されました。
English
Recent advances in sparse voxel representations have significantly improved
the quality of 3D content generation, enabling high-resolution modeling with
fine-grained geometry. However, existing frameworks suffer from severe
computational inefficiencies due to the quadratic complexity of attention
mechanisms in their two-stage diffusion pipelines. In this work, we propose
Ultra3D, an efficient 3D generation framework that significantly accelerates
sparse voxel modeling without compromising quality. Our method leverages the
compact VecSet representation to efficiently generate a coarse object layout in
the first stage, reducing token count and accelerating voxel coordinate
prediction. To refine per-voxel latent features in the second stage, we
introduce Part Attention, a geometry-aware localized attention mechanism that
restricts attention computation within semantically consistent part regions.
This design preserves structural continuity while avoiding unnecessary global
attention, achieving up to 6.7x speed-up in latent generation. To support this
mechanism, we construct a scalable part annotation pipeline that converts raw
meshes into part-labeled sparse voxels. Extensive experiments demonstrate that
Ultra3D supports high-resolution 3D generation at 1024 resolution and achieves
state-of-the-art performance in both visual fidelity and user preference.