Step1X-3D: Op weg naar hoogwaardige en controleerbare generatie van getextureerde 3D-assets
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
May 12, 2025
Auteurs: Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan
cs.AI
Samenvatting
Hoewel generatieve kunstmatige intelligentie aanzienlijke vooruitgang heeft geboekt op het gebied van tekst, beeld, audio en video, blijft 3D-generatie relatief onderontwikkeld vanwege fundamentele uitdagingen zoals dataschaarste, algoritmische beperkingen en ecosysteemfragmentatie. Daarom presenteren wij Step1X-3D, een open framework dat deze uitdagingen aanpakt door: (1) een rigoureus datacuratiepipeline die meer dan 5M assets verwerkt om een dataset van 2M hoogwaardige assets te creëren met gestandaardiseerde geometrische en textuureigenschappen; (2) een tweestaps 3D-native architectuur die een hybride VAE-DiT geometriegenerator combineert met een op diffusie gebaseerde textuursynthesemodule; en (3) de volledige open-source release van modellen, trainingscode en aanpassingsmodules. Voor geometriegeneratie produceert de hybride VAE-DiT-component TSDF-representaties door gebruik te maken van perceiver-gebaseerde latente codering met scherpe randbemonstering voor detailbehoud. De op diffusie gebaseerde textuursynthesemodule zorgt vervolgens voor consistentie tussen verschillende aanzichten door geometrische conditionering en latent-ruimtesynchronisatie. Benchmarkresultaten tonen state-of-the-art prestaties die bestaande open-source methoden overtreffen, terwijl ook concurrerende kwaliteit wordt bereikt met propriëtaire oplossingen. Opmerkelijk is dat het framework uniek de 2D- en 3D-generatieparadigma's verbindt door directe overdracht van 2D-controletechnieken (bijv. LoRA) naar 3D-synthese te ondersteunen. Door tegelijkertijd de datakwaliteit, algoritmische nauwkeurigheid en reproduceerbaarheid te verbeteren, streeft Step1X-3D ernaar nieuwe standaarden te vestigen voor open onderzoek in beheersbare 3D-assetgeneratie.
English
While generative artificial intelligence has advanced significantly across
text, image, audio, and video domains, 3D generation remains comparatively
underdeveloped due to fundamental challenges such as data scarcity, algorithmic
limitations, and ecosystem fragmentation. To this end, we present Step1X-3D, an
open framework addressing these challenges through: (1) a rigorous data
curation pipeline processing >5M assets to create a 2M high-quality dataset
with standardized geometric and textural properties; (2) a two-stage 3D-native
architecture combining a hybrid VAE-DiT geometry generator with an
diffusion-based texture synthesis module; and (3) the full open-source release
of models, training code, and adaptation modules. For geometry generation, the
hybrid VAE-DiT component produces TSDF representations by employing
perceiver-based latent encoding with sharp edge sampling for detail
preservation. The diffusion-based texture synthesis module then ensures
cross-view consistency through geometric conditioning and latent-space
synchronization. Benchmark results demonstrate state-of-the-art performance
that exceeds existing open-source methods, while also achieving competitive
quality with proprietary solutions. Notably, the framework uniquely bridges the
2D and 3D generation paradigms by supporting direct transfer of 2D control
techniques~(e.g., LoRA) to 3D synthesis. By simultaneously advancing data
quality, algorithmic fidelity, and reproducibility, Step1X-3D aims to establish
new standards for open research in controllable 3D asset generation.Summary
AI-Generated Summary