Ultra3D: 부품 주의 메커니즘을 통한 효율적이고 고품질의 3D 생성
Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention
July 23, 2025
저자: Yiwen Chen, Zhihao Li, Yikai Wang, Hu Zhang, Qin Li, Chi Zhang, Guosheng Lin
cs.AI
초록
최근 희소 복셀 표현 기술의 발전은 고해상도 모델링과 세밀한 기하학적 구조를 가능하게 하여 3D 콘텐츠 생성의 품질을 크게 향상시켰다. 그러나 기존 프레임워크는 두 단계 확산 파이프라인에서 어텐션 메커니즘의 이차 복잡성으로 인해 심각한 계산 비효율성을 겪고 있다. 본 연구에서는 품질 저하 없이 희소 복셀 모델링을 크게 가속화하는 효율적인 3D 생성 프레임워크인 Ultra3D를 제안한다. 우리의 방법은 첫 번째 단계에서 컴팩트한 VecSet 표현을 활용하여 거친 객체 레이아웃을 효율적으로 생성함으로써 토큰 수를 줄이고 복셀 좌표 예측을 가속화한다. 두 번째 단계에서는 복셀별 잠재 특징을 정제하기 위해, 의미적으로 일관된 부분 영역 내에서만 어텐션 계산을 제한하는 기하학적 인식의 지역화된 어텐션 메커니즘인 Part Attention을 도입한다. 이 설계는 구조적 연속성을 유지하면서 불필요한 전역 어텐션을 피하여 잠재 생성에서 최대 6.7배의 속도 향상을 달성한다. 이 메커니즘을 지원하기 위해, 원시 메시를 부분 레이블이 지정된 희소 복셀로 변환하는 확장 가능한 부분 주석 파이프라인을 구축한다. 광범위한 실험을 통해 Ultra3D가 1024 해상도에서 고해상도 3D 생성을 지원하며 시각적 충실도와 사용자 선호도 모두에서 최신 기술을 능가하는 성능을 달성함을 입증한다.
English
Recent advances in sparse voxel representations have significantly improved
the quality of 3D content generation, enabling high-resolution modeling with
fine-grained geometry. However, existing frameworks suffer from severe
computational inefficiencies due to the quadratic complexity of attention
mechanisms in their two-stage diffusion pipelines. In this work, we propose
Ultra3D, an efficient 3D generation framework that significantly accelerates
sparse voxel modeling without compromising quality. Our method leverages the
compact VecSet representation to efficiently generate a coarse object layout in
the first stage, reducing token count and accelerating voxel coordinate
prediction. To refine per-voxel latent features in the second stage, we
introduce Part Attention, a geometry-aware localized attention mechanism that
restricts attention computation within semantically consistent part regions.
This design preserves structural continuity while avoiding unnecessary global
attention, achieving up to 6.7x speed-up in latent generation. To support this
mechanism, we construct a scalable part annotation pipeline that converts raw
meshes into part-labeled sparse voxels. Extensive experiments demonstrate that
Ultra3D supports high-resolution 3D generation at 1024 resolution and achieves
state-of-the-art performance in both visual fidelity and user preference.