ChatPaper.aiChatPaper

Ultra3D: Geração Eficiente e de Alta Fidelidade em 3D com Atenção a Partes

Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention

July 23, 2025
Autores: Yiwen Chen, Zhihao Li, Yikai Wang, Hu Zhang, Qin Li, Chi Zhang, Guosheng Lin
cs.AI

Resumo

Avanços recentes em representações esparsas de voxels melhoraram significativamente a qualidade da geração de conteúdo 3D, permitindo modelagem de alta resolução com geometria refinada. No entanto, os frameworks existentes sofrem com ineficiências computacionais severas devido à complexidade quadrática dos mecanismos de atenção em seus pipelines de difusão em dois estágios. Neste trabalho, propomos o Ultra3D, um framework eficiente de geração 3D que acelera significativamente a modelagem de voxels esparsos sem comprometer a qualidade. Nosso método utiliza a representação compacta VecSet para gerar eficientemente um layout grosseiro do objeto no primeiro estágio, reduzindo a contagem de tokens e acelerando a predição de coordenadas de voxels. Para refinar as características latentes por voxel no segundo estágio, introduzimos a Part Attention, um mecanismo de atenção localizada e consciente da geometria que restringe o cálculo de atenção a regiões de partes semanticamente consistentes. Esse design preserva a continuidade estrutural enquanto evita a atenção global desnecessária, alcançando uma aceleração de até 6,7x na geração latente. Para suportar esse mecanismo, construímos um pipeline escalável de anotação de partes que converte malhas brutas em voxels esparsos rotulados por partes. Experimentos extensivos demonstram que o Ultra3D suporta geração 3D de alta resolução em 1024 e alcança desempenho de ponta tanto em fidelidade visual quanto em preferência do usuário.
English
Recent advances in sparse voxel representations have significantly improved the quality of 3D content generation, enabling high-resolution modeling with fine-grained geometry. However, existing frameworks suffer from severe computational inefficiencies due to the quadratic complexity of attention mechanisms in their two-stage diffusion pipelines. In this work, we propose Ultra3D, an efficient 3D generation framework that significantly accelerates sparse voxel modeling without compromising quality. Our method leverages the compact VecSet representation to efficiently generate a coarse object layout in the first stage, reducing token count and accelerating voxel coordinate prediction. To refine per-voxel latent features in the second stage, we introduce Part Attention, a geometry-aware localized attention mechanism that restricts attention computation within semantically consistent part regions. This design preserves structural continuity while avoiding unnecessary global attention, achieving up to 6.7x speed-up in latent generation. To support this mechanism, we construct a scalable part annotation pipeline that converts raw meshes into part-labeled sparse voxels. Extensive experiments demonstrate that Ultra3D supports high-resolution 3D generation at 1024 resolution and achieves state-of-the-art performance in both visual fidelity and user preference.
PDF301July 24, 2025