ChatPaper.aiChatPaper

Ultra3D: Effiziente und hochauflösende 3D-Generierung mit Teil-Attention

Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention

July 23, 2025
papers.authors: Yiwen Chen, Zhihao Li, Yikai Wang, Hu Zhang, Qin Li, Chi Zhang, Guosheng Lin
cs.AI

papers.abstract

Jüngste Fortschritte in der Darstellung spärlicher Voxel haben die Qualität der 3D-Inhaltsgenerierung erheblich verbessert und ermöglichen eine hochauflösende Modellierung mit fein abgestufter Geometrie. Bestehende Frameworks leiden jedoch unter erheblichen Rechenineffizienzen aufgrund der quadratischen Komplexität von Aufmerksamkeitsmechanismen in ihren zweistufigen Diffusionspipelines. In dieser Arbeit stellen wir Ultra3D vor, ein effizientes 3D-Generierungsframework, das die Modellierung spärlicher Voxel erheblich beschleunigt, ohne die Qualität zu beeinträchtigen. Unsere Methode nutzt die kompakte VecSet-Darstellung, um in der ersten Stufe effizient ein grobes Objektlayout zu generieren, wodurch die Token-Anzahl reduziert und die Vorhersage von Voxelkoordinaten beschleunigt wird. Um die latenten Merkmale pro Voxel in der zweiten Stufe zu verfeinern, führen wir Part Attention ein, einen geometriebewussten lokalisierten Aufmerksamkeitsmechanismus, der die Aufmerksamkeitsberechnung auf semantisch konsistente Teilregionen beschränkt. Dieser Ansatz bewahrt die strukturelle Kontinuität, während unnötige globale Aufmerksamkeit vermieden wird, was eine Beschleunigung der latenten Generierung um bis zu das 6,7-fache ermöglicht. Um diesen Mechanismus zu unterstützen, entwickeln wir eine skalierbare Pipeline zur Teileannotation, die Rohmeshes in teilmarkierte spärliche Voxel umwandelt. Umfangreiche Experimente zeigen, dass Ultra3D die hochauflösende 3D-Generierung bei einer Auflösung von 1024 unterstützt und sowohl in Bezug auf die visuelle Qualität als auch auf die Benutzerpräferenz state-of-the-art Leistungen erzielt.
English
Recent advances in sparse voxel representations have significantly improved the quality of 3D content generation, enabling high-resolution modeling with fine-grained geometry. However, existing frameworks suffer from severe computational inefficiencies due to the quadratic complexity of attention mechanisms in their two-stage diffusion pipelines. In this work, we propose Ultra3D, an efficient 3D generation framework that significantly accelerates sparse voxel modeling without compromising quality. Our method leverages the compact VecSet representation to efficiently generate a coarse object layout in the first stage, reducing token count and accelerating voxel coordinate prediction. To refine per-voxel latent features in the second stage, we introduce Part Attention, a geometry-aware localized attention mechanism that restricts attention computation within semantically consistent part regions. This design preserves structural continuity while avoiding unnecessary global attention, achieving up to 6.7x speed-up in latent generation. To support this mechanism, we construct a scalable part annotation pipeline that converts raw meshes into part-labeled sparse voxels. Extensive experiments demonstrate that Ultra3D supports high-resolution 3D generation at 1024 resolution and achieves state-of-the-art performance in both visual fidelity and user preference.
PDF301July 24, 2025