Ultra3D: Эффективная и высококачественная 3D-генерация с использованием внимания к частям
Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention
July 23, 2025
Авторы: Yiwen Chen, Zhihao Li, Yikai Wang, Hu Zhang, Qin Li, Chi Zhang, Guosheng Lin
cs.AI
Аннотация
Последние достижения в области разреженных воксельных представлений значительно улучшили качество генерации 3D-контента, обеспечивая моделирование с высоким разрешением и детализированной геометрией. Однако существующие фреймворки страдают от серьезных вычислительных неэффективностей из-за квадратичной сложности механизмов внимания в их двухэтапных диффузионных конвейерах. В данной работе мы предлагаем Ultra3D, эффективный фреймворк для генерации 3D-моделей, который значительно ускоряет разреженное воксельное моделирование без ущерба для качества. Наш метод использует компактное представление VecSet для эффективной генерации грубой структуры объекта на первом этапе, сокращая количество токенов и ускоряя предсказание воксельных координат. Для уточнения латентных характеристик каждого вокселя на втором этапе мы вводим Part Attention, геометрически осознанный локализованный механизм внимания, который ограничивает вычисления внимания в пределах семантически согласованных регионов частей. Этот подход сохраняет структурную непрерывность, избегая ненужного глобального внимания, и достигает ускорения генерации латентных характеристик до 6.7 раз. Для поддержки этого механизма мы создаем масштабируемый конвейер аннотации частей, который преобразует исходные сетки в разреженные воксели с метками частей. Многочисленные эксперименты демонстрируют, что Ultra3D поддерживает генерацию 3D-моделей с высоким разрешением 1024 и достигает передовых показателей как в визуальной точности, так и в предпочтениях пользователей.
English
Recent advances in sparse voxel representations have significantly improved
the quality of 3D content generation, enabling high-resolution modeling with
fine-grained geometry. However, existing frameworks suffer from severe
computational inefficiencies due to the quadratic complexity of attention
mechanisms in their two-stage diffusion pipelines. In this work, we propose
Ultra3D, an efficient 3D generation framework that significantly accelerates
sparse voxel modeling without compromising quality. Our method leverages the
compact VecSet representation to efficiently generate a coarse object layout in
the first stage, reducing token count and accelerating voxel coordinate
prediction. To refine per-voxel latent features in the second stage, we
introduce Part Attention, a geometry-aware localized attention mechanism that
restricts attention computation within semantically consistent part regions.
This design preserves structural continuity while avoiding unnecessary global
attention, achieving up to 6.7x speed-up in latent generation. To support this
mechanism, we construct a scalable part annotation pipeline that converts raw
meshes into part-labeled sparse voxels. Extensive experiments demonstrate that
Ultra3D supports high-resolution 3D generation at 1024 resolution and achieves
state-of-the-art performance in both visual fidelity and user preference.