Step1X-3D: Auf dem Weg zur hochwertigen und kontrollierbaren Erzeugung texturierter 3D-Assets
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
May 12, 2025
Autoren: Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan
cs.AI
Zusammenfassung
Während die generative künstliche Intelligenz in den Bereichen Text, Bild, Audio und Video erhebliche Fortschritte gemacht hat, bleibt die 3D-Generierung vergleichsweise unterentwickelt, was auf grundlegende Herausforderungen wie Datenknappheit, algorithmische Einschränkungen und die Fragmentierung des Ökosystems zurückzuführen ist. Vor diesem Hintergrund präsentieren wir Step1X-3D, ein offenes Framework, das diese Herausforderungen durch folgende Maßnahmen adressiert: (1) eine rigorose Datenkuratierungspipeline, die >5M Assets verarbeitet, um einen hochwertigen Datensatz mit 2M Einträgen und standardisierten geometrischen und texturalen Eigenschaften zu erstellen; (2) eine zweistufige, 3D-native Architektur, die einen hybriden VAE-DiT-Geometriegenerator mit einem diffusionsbasierten Textursynthesemodul kombiniert; und (3) die vollständige Open-Source-Freigabe von Modellen, Trainingscode und Anpassungsmodulen. Für die Geometriegenerierung erzeugt die hybride VAE-DiT-Komponente TSDF-Repräsentationen durch die Verwendung von Perceiver-basierter latenter Kodierung mit scharfer Kantenabtastung zur Detailerhaltung. Das diffusionsbasierte Textursynthesemodul gewährleistet dann die konsistente Darstellung über verschiedene Blickwinkel hinweg durch geometrische Konditionierung und Latentraum-Synchronisation. Benchmark-Ergebnisse zeigen eine state-of-the-art Leistung, die bestehende Open-Source-Methoden übertrifft und gleichzeitig eine wettbewerbsfähige Qualität zu proprietären Lösungen erreicht. Bemerkenswert ist, dass das Framework eine einzigartige Brücke zwischen den 2D- und 3D-Generierungsparadigmen schlägt, indem es den direkten Transfer von 2D-Kontrolltechniken (z.B. LoRA) auf die 3D-Synthese unterstützt. Durch die gleichzeitige Verbesserung der Datenqualität, algorithmischen Genauigkeit und Reproduzierbarkeit zielt Step1X-3D darauf ab, neue Standards für die offene Forschung in der kontrollierbaren 3D-Asset-Generierung zu setzen.
English
While generative artificial intelligence has advanced significantly across
text, image, audio, and video domains, 3D generation remains comparatively
underdeveloped due to fundamental challenges such as data scarcity, algorithmic
limitations, and ecosystem fragmentation. To this end, we present Step1X-3D, an
open framework addressing these challenges through: (1) a rigorous data
curation pipeline processing >5M assets to create a 2M high-quality dataset
with standardized geometric and textural properties; (2) a two-stage 3D-native
architecture combining a hybrid VAE-DiT geometry generator with an
diffusion-based texture synthesis module; and (3) the full open-source release
of models, training code, and adaptation modules. For geometry generation, the
hybrid VAE-DiT component produces TSDF representations by employing
perceiver-based latent encoding with sharp edge sampling for detail
preservation. The diffusion-based texture synthesis module then ensures
cross-view consistency through geometric conditioning and latent-space
synchronization. Benchmark results demonstrate state-of-the-art performance
that exceeds existing open-source methods, while also achieving competitive
quality with proprietary solutions. Notably, the framework uniquely bridges the
2D and 3D generation paradigms by supporting direct transfer of 2D control
techniques~(e.g., LoRA) to 3D synthesis. By simultaneously advancing data
quality, algorithmic fidelity, and reproducibility, Step1X-3D aims to establish
new standards for open research in controllable 3D asset generation.Summary
AI-Generated Summary