Step1X-3D: В направлении создания высококачественных и управляемых текстурных 3D-активов
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
May 12, 2025
Авторы: Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan
cs.AI
Аннотация
Хотя генеративный искусственный интеллект значительно продвинулся в областях текста, изображений, аудио и видео, генерация 3D-контента остается сравнительно слаборазвитой из-за фундаментальных проблем, таких как нехватка данных, ограничения алгоритмов и фрагментация экосистемы. В связи с этим мы представляем Step1X-3D — открытую платформу, решающую эти проблемы за счет: (1) строгого конвейера обработки данных, включающего более 5 млн активов для создания высококачественного набора данных объемом 2 млн с стандартизированными геометрическими и текстурными свойствами; (2) двухэтапной 3D-ориентированной архитектуры, сочетающей гибридный генератор геометрии VAE-DiT с модулем синтеза текстур на основе диффузии; и (3) полного открытого доступа к моделям, коду обучения и модулям адаптации. Для генерации геометрии гибридный компонент VAE-DiT создает TSDF-представления, используя кодирование латентных признаков на основе перцептронов с выборкой острых краев для сохранения деталей. Модуль синтеза текстур на основе диффузии обеспечивает согласованность между видами за счет геометрического кондиционирования и синхронизации в латентном пространстве. Результаты тестирования демонстрируют передовые показатели, превосходящие существующие открытые методы, а также конкурентоспособное качество по сравнению с проприетарными решениями. Примечательно, что платформа уникальным образом объединяет парадигмы 2D и 3D генерации, поддерживая прямой перенос 2D-методов управления (например, LoRA) в 3D-синтез. Одновременно улучшая качество данных, точность алгоритмов и воспроизводимость, Step1X-3D стремится установить новые стандарты для открытых исследований в области управляемой генерации 3D-активов.
English
While generative artificial intelligence has advanced significantly across
text, image, audio, and video domains, 3D generation remains comparatively
underdeveloped due to fundamental challenges such as data scarcity, algorithmic
limitations, and ecosystem fragmentation. To this end, we present Step1X-3D, an
open framework addressing these challenges through: (1) a rigorous data
curation pipeline processing >5M assets to create a 2M high-quality dataset
with standardized geometric and textural properties; (2) a two-stage 3D-native
architecture combining a hybrid VAE-DiT geometry generator with an
diffusion-based texture synthesis module; and (3) the full open-source release
of models, training code, and adaptation modules. For geometry generation, the
hybrid VAE-DiT component produces TSDF representations by employing
perceiver-based latent encoding with sharp edge sampling for detail
preservation. The diffusion-based texture synthesis module then ensures
cross-view consistency through geometric conditioning and latent-space
synchronization. Benchmark results demonstrate state-of-the-art performance
that exceeds existing open-source methods, while also achieving competitive
quality with proprietary solutions. Notably, the framework uniquely bridges the
2D and 3D generation paradigms by supporting direct transfer of 2D control
techniques~(e.g., LoRA) to 3D synthesis. By simultaneously advancing data
quality, algorithmic fidelity, and reproducibility, Step1X-3D aims to establish
new standards for open research in controllable 3D asset generation.Summary
AI-Generated Summary