ChatPaper.aiChatPaper

Step1X-3D: Verso la Generazione di Asset 3D Testurizzati ad Alta Fedeltà e Controllabile

Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

May 12, 2025
Autori: Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan
cs.AI

Abstract

Mentre l'intelligenza artificiale generativa ha compiuto progressi significativi nei domini di testo, immagini, audio e video, la generazione 3D rimane relativamente sottosviluppata a causa di sfide fondamentali come la scarsità di dati, limitazioni algoritmiche e frammentazione dell'ecosistema. A tal fine, presentiamo Step1X-3D, un framework aperto che affronta queste sfide attraverso: (1) una pipeline rigorosa di curatela dei dati che elabora oltre 5 milioni di asset per creare un dataset di 2 milioni di elementi di alta qualità con proprietà geometriche e testurali standardizzate; (2) un'architettura 3D-native a due stadi che combina un generatore di geometria ibrido VAE-DiT con un modulo di sintesi testurale basato su diffusione; e (3) il rilascio completo open-source di modelli, codice di addestramento e moduli di adattamento. Per la generazione della geometria, il componente ibrido VAE-DiT produce rappresentazioni TSDF utilizzando una codifica latente basata su perceiver con campionamento dei bordi netti per preservare i dettagli. Il modulo di sintesi testurale basato su diffusione garantisce quindi la coerenza tra le viste attraverso il condizionamento geometrico e la sincronizzazione nello spazio latente. I risultati dei benchmark dimostrano prestazioni all'avanguardia che superano i metodi open-source esistenti, raggiungendo anche una qualità competitiva con soluzioni proprietarie. In particolare, il framework colma in modo unico i paradigmi di generazione 2D e 3D supportando il trasferimento diretto di tecniche di controllo 2D (ad esempio, LoRA) alla sintesi 3D. Avanzando simultaneamente la qualità dei dati, la fedeltà algoritmica e la riproducibilità, Step1X-3D mira a stabilire nuovi standard per la ricerca aperta nella generazione controllata di asset 3D.
English
While generative artificial intelligence has advanced significantly across text, image, audio, and video domains, 3D generation remains comparatively underdeveloped due to fundamental challenges such as data scarcity, algorithmic limitations, and ecosystem fragmentation. To this end, we present Step1X-3D, an open framework addressing these challenges through: (1) a rigorous data curation pipeline processing >5M assets to create a 2M high-quality dataset with standardized geometric and textural properties; (2) a two-stage 3D-native architecture combining a hybrid VAE-DiT geometry generator with an diffusion-based texture synthesis module; and (3) the full open-source release of models, training code, and adaptation modules. For geometry generation, the hybrid VAE-DiT component produces TSDF representations by employing perceiver-based latent encoding with sharp edge sampling for detail preservation. The diffusion-based texture synthesis module then ensures cross-view consistency through geometric conditioning and latent-space synchronization. Benchmark results demonstrate state-of-the-art performance that exceeds existing open-source methods, while also achieving competitive quality with proprietary solutions. Notably, the framework uniquely bridges the 2D and 3D generation paradigms by supporting direct transfer of 2D control techniques~(e.g., LoRA) to 3D synthesis. By simultaneously advancing data quality, algorithmic fidelity, and reproducibility, Step1X-3D aims to establish new standards for open research in controllable 3D asset generation.
PDF613May 13, 2025