Step1X-3D: Rumo à Geração de Ativos 3D Texturizados de Alta Fidelidade e Controlável
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
May 12, 2025
Autores: Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan
cs.AI
Resumo
Embora a inteligência artificial generativa tenha avançado significativamente nos domínios de texto, imagem, áudio e vídeo, a geração 3D permanece relativamente subdesenvolvida devido a desafios fundamentais, como escassez de dados, limitações algorítmicas e fragmentação do ecossistema. Para isso, apresentamos o Step1X-3D, um framework aberto que aborda esses desafios por meio de: (1) um pipeline rigoroso de curadoria de dados que processa mais de 5 milhões de ativos para criar um conjunto de dados de 2 milhões de alta qualidade com propriedades geométricas e texturais padronizadas; (2) uma arquitetura 3D-nativa em dois estágios que combina um gerador de geometria híbrido VAE-DiT com um módulo de síntese de textura baseado em difusão; e (3) o lançamento completo em código aberto de modelos, código de treinamento e módulos de adaptação. Para a geração de geometria, o componente híbrido VAE-DiT produz representações TSDF empregando codificação latente baseada em perceiver com amostragem de bordas afiadas para preservação de detalhes. O módulo de síntese de textura baseado em difusão, então, garante consistência entre vistas por meio de condicionamento geométrico e sincronização no espaço latente. Resultados de benchmarks demonstram desempenho de ponta que supera métodos de código aberto existentes, ao mesmo tempo que alcança qualidade competitiva com soluções proprietárias. Notavelmente, o framework une de forma única os paradigmas de geração 2D e 3D ao suportar a transferência direta de técnicas de controle 2D (por exemplo, LoRA) para síntese 3D. Ao avançar simultaneamente a qualidade dos dados, a fidelidade algorítmica e a reprodutibilidade, o Step1X-3D visa estabelecer novos padrões para pesquisa aberta em geração controlada de ativos 3D.
English
While generative artificial intelligence has advanced significantly across
text, image, audio, and video domains, 3D generation remains comparatively
underdeveloped due to fundamental challenges such as data scarcity, algorithmic
limitations, and ecosystem fragmentation. To this end, we present Step1X-3D, an
open framework addressing these challenges through: (1) a rigorous data
curation pipeline processing >5M assets to create a 2M high-quality dataset
with standardized geometric and textural properties; (2) a two-stage 3D-native
architecture combining a hybrid VAE-DiT geometry generator with an
diffusion-based texture synthesis module; and (3) the full open-source release
of models, training code, and adaptation modules. For geometry generation, the
hybrid VAE-DiT component produces TSDF representations by employing
perceiver-based latent encoding with sharp edge sampling for detail
preservation. The diffusion-based texture synthesis module then ensures
cross-view consistency through geometric conditioning and latent-space
synchronization. Benchmark results demonstrate state-of-the-art performance
that exceeds existing open-source methods, while also achieving competitive
quality with proprietary solutions. Notably, the framework uniquely bridges the
2D and 3D generation paradigms by supporting direct transfer of 2D control
techniques~(e.g., LoRA) to 3D synthesis. By simultaneously advancing data
quality, algorithmic fidelity, and reproducibility, Step1X-3D aims to establish
new standards for open research in controllable 3D asset generation.