Step1X-3D : Vers une génération haute fidélité et contrôlable d'actifs 3D texturés

Résumé

Alors que l'intelligence artificielle générative a progressé de manière significative dans les domaines du texte, de l'image, de l'audio et de la vidéo, la génération 3D reste relativement peu développée en raison de défis fondamentaux tels que la rareté des données, les limitations algorithmiques et la fragmentation de l'écosystème. À cette fin, nous présentons Step1X-3D, un cadre ouvert qui aborde ces défis à travers : (1) un pipeline rigoureux de curation de données traitant plus de 5 millions d'actifs pour créer un ensemble de données de 2 millions d'éléments de haute qualité avec des propriétés géométriques et texturales standardisées ; (2) une architecture native 3D en deux étapes combinant un générateur de géométrie hybride VAE-DiT avec un module de synthèse de textures basé sur la diffusion ; et (3) la publication open-source complète des modèles, du code d'entraînement et des modules d'adaptation. Pour la génération de géométrie, le composant hybride VAE-DiT produit des représentations TSDF en utilisant un encodage latent basé sur des percepteurs avec un échantillonnage des arêtes vives pour préserver les détails. Le module de synthèse de textures basé sur la diffusion assure ensuite la cohérence inter-vues grâce au conditionnement géométrique et à la synchronisation de l'espace latent. Les résultats de référence démontrent des performances de pointe qui surpassent les méthodes open-source existantes, tout en atteignant une qualité compétitive avec les solutions propriétaires. Notamment, le cadre relie de manière unique les paradigmes de génération 2D et 3D en permettant le transfert direct des techniques de contrôle 2D (par exemple, LoRA) à la synthèse 3D. En faisant progresser simultanément la qualité des données, la fidélité algorithmique et la reproductibilité, Step1X-3D vise à établir de nouvelles normes pour la recherche ouverte dans la génération contrôlée d'actifs 3D.

English

While generative artificial intelligence has advanced significantly across text, image, audio, and video domains, 3D generation remains comparatively underdeveloped due to fundamental challenges such as data scarcity, algorithmic limitations, and ecosystem fragmentation. To this end, we present Step1X-3D, an open framework addressing these challenges through: (1) a rigorous data curation pipeline processing >5M assets to create a 2M high-quality dataset with standardized geometric and textural properties; (2) a two-stage 3D-native architecture combining a hybrid VAE-DiT geometry generator with an diffusion-based texture synthesis module; and (3) the full open-source release of models, training code, and adaptation modules. For geometry generation, the hybrid VAE-DiT component produces TSDF representations by employing perceiver-based latent encoding with sharp edge sampling for detail preservation. The diffusion-based texture synthesis module then ensures cross-view consistency through geometric conditioning and latent-space synchronization. Benchmark results demonstrate state-of-the-art performance that exceeds existing open-source methods, while also achieving competitive quality with proprietary solutions. Notably, the framework uniquely bridges the 2D and 3D generation paradigms by supporting direct transfer of 2D control techniques~(e.g., LoRA) to 3D synthesis. By simultaneously advancing data quality, algorithmic fidelity, and reproducibility, Step1X-3D aims to establish new standards for open research in controllable 3D asset generation.

Step1X-3D : Vers une génération haute fidélité et contrôlable d'actifs 3D texturés

Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

Résumé

Support