Step1X-3D: Rumo à Geração de Ativos 3D Texturizados de Alta Fidelidade e Controlável

Resumo

Embora a inteligência artificial generativa tenha avançado significativamente nos domínios de texto, imagem, áudio e vídeo, a geração 3D permanece relativamente subdesenvolvida devido a desafios fundamentais, como escassez de dados, limitações algorítmicas e fragmentação do ecossistema. Para isso, apresentamos o Step1X-3D, um framework aberto que aborda esses desafios por meio de: (1) um pipeline rigoroso de curadoria de dados que processa mais de 5 milhões de ativos para criar um conjunto de dados de 2 milhões de alta qualidade com propriedades geométricas e texturais padronizadas; (2) uma arquitetura 3D-nativa em dois estágios que combina um gerador de geometria híbrido VAE-DiT com um módulo de síntese de textura baseado em difusão; e (3) o lançamento completo em código aberto de modelos, código de treinamento e módulos de adaptação. Para a geração de geometria, o componente híbrido VAE-DiT produz representações TSDF empregando codificação latente baseada em perceiver com amostragem de bordas afiadas para preservação de detalhes. O módulo de síntese de textura baseado em difusão, então, garante consistência entre vistas por meio de condicionamento geométrico e sincronização no espaço latente. Resultados de benchmarks demonstram desempenho de ponta que supera métodos de código aberto existentes, ao mesmo tempo que alcança qualidade competitiva com soluções proprietárias. Notavelmente, o framework une de forma única os paradigmas de geração 2D e 3D ao suportar a transferência direta de técnicas de controle 2D (por exemplo, LoRA) para síntese 3D. Ao avançar simultaneamente a qualidade dos dados, a fidelidade algorítmica e a reprodutibilidade, o Step1X-3D visa estabelecer novos padrões para pesquisa aberta em geração controlada de ativos 3D.

English

While generative artificial intelligence has advanced significantly across text, image, audio, and video domains, 3D generation remains comparatively underdeveloped due to fundamental challenges such as data scarcity, algorithmic limitations, and ecosystem fragmentation. To this end, we present Step1X-3D, an open framework addressing these challenges through: (1) a rigorous data curation pipeline processing >5M assets to create a 2M high-quality dataset with standardized geometric and textural properties; (2) a two-stage 3D-native architecture combining a hybrid VAE-DiT geometry generator with an diffusion-based texture synthesis module; and (3) the full open-source release of models, training code, and adaptation modules. For geometry generation, the hybrid VAE-DiT component produces TSDF representations by employing perceiver-based latent encoding with sharp edge sampling for detail preservation. The diffusion-based texture synthesis module then ensures cross-view consistency through geometric conditioning and latent-space synchronization. Benchmark results demonstrate state-of-the-art performance that exceeds existing open-source methods, while also achieving competitive quality with proprietary solutions. Notably, the framework uniquely bridges the 2D and 3D generation paradigms by supporting direct transfer of 2D control techniques~(e.g., LoRA) to 3D synthesis. By simultaneously advancing data quality, algorithmic fidelity, and reproducibility, Step1X-3D aims to establish new standards for open research in controllable 3D asset generation.

Step1X-3D: Rumo à Geração de Ativos 3D Texturizados de Alta Fidelidade e Controlável

Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

Resumo

Support