Step1X-3D : Vers une génération haute fidélité et contrôlable d'actifs 3D texturés
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
May 12, 2025
Auteurs: Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan
cs.AI
Résumé
Alors que l'intelligence artificielle générative a progressé de manière significative dans les domaines du texte, de l'image, de l'audio et de la vidéo, la génération 3D reste relativement peu développée en raison de défis fondamentaux tels que la rareté des données, les limitations algorithmiques et la fragmentation de l'écosystème. À cette fin, nous présentons Step1X-3D, un cadre ouvert qui aborde ces défis à travers : (1) un pipeline rigoureux de curation de données traitant plus de 5 millions d'actifs pour créer un ensemble de données de 2 millions d'éléments de haute qualité avec des propriétés géométriques et texturales standardisées ; (2) une architecture native 3D en deux étapes combinant un générateur de géométrie hybride VAE-DiT avec un module de synthèse de textures basé sur la diffusion ; et (3) la publication open-source complète des modèles, du code d'entraînement et des modules d'adaptation. Pour la génération de géométrie, le composant hybride VAE-DiT produit des représentations TSDF en utilisant un encodage latent basé sur des percepteurs avec un échantillonnage des arêtes vives pour préserver les détails. Le module de synthèse de textures basé sur la diffusion assure ensuite la cohérence inter-vues grâce au conditionnement géométrique et à la synchronisation de l'espace latent. Les résultats de référence démontrent des performances de pointe qui surpassent les méthodes open-source existantes, tout en atteignant une qualité compétitive avec les solutions propriétaires. Notamment, le cadre relie de manière unique les paradigmes de génération 2D et 3D en permettant le transfert direct des techniques de contrôle 2D (par exemple, LoRA) à la synthèse 3D. En faisant progresser simultanément la qualité des données, la fidélité algorithmique et la reproductibilité, Step1X-3D vise à établir de nouvelles normes pour la recherche ouverte dans la génération contrôlée d'actifs 3D.
English
While generative artificial intelligence has advanced significantly across
text, image, audio, and video domains, 3D generation remains comparatively
underdeveloped due to fundamental challenges such as data scarcity, algorithmic
limitations, and ecosystem fragmentation. To this end, we present Step1X-3D, an
open framework addressing these challenges through: (1) a rigorous data
curation pipeline processing >5M assets to create a 2M high-quality dataset
with standardized geometric and textural properties; (2) a two-stage 3D-native
architecture combining a hybrid VAE-DiT geometry generator with an
diffusion-based texture synthesis module; and (3) the full open-source release
of models, training code, and adaptation modules. For geometry generation, the
hybrid VAE-DiT component produces TSDF representations by employing
perceiver-based latent encoding with sharp edge sampling for detail
preservation. The diffusion-based texture synthesis module then ensures
cross-view consistency through geometric conditioning and latent-space
synchronization. Benchmark results demonstrate state-of-the-art performance
that exceeds existing open-source methods, while also achieving competitive
quality with proprietary solutions. Notably, the framework uniquely bridges the
2D and 3D generation paradigms by supporting direct transfer of 2D control
techniques~(e.g., LoRA) to 3D synthesis. By simultaneously advancing data
quality, algorithmic fidelity, and reproducibility, Step1X-3D aims to establish
new standards for open research in controllable 3D asset generation.Summary
AI-Generated Summary