Step1X-3D: 고품질 텍스처 3D 자산의 제어 가능한 생성 기술
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
May 12, 2025
저자: Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan
cs.AI
초록
생성형 인공지능이 텍스트, 이미지, 오디오, 비디오 영역에서 상당히 발전했음에도 불구하고, 3D 생성은 데이터 부족, 알고리즘적 한계, 생태계 분열과 같은 근본적인 문제들로 인해 상대적으로 미흡한 상태입니다. 이를 해결하기 위해, 우리는 Step1X-3D를 제안합니다. 이는 다음과 같은 방법으로 이러한 문제들을 해결하는 오픈 프레임워크입니다: (1) 500만 개 이상의 자산을 처리하여 표준화된 기하학적 및 텍스처 속성을 가진 200만 개의 고품질 데이터셋을 생성하는 엄격한 데이터 큐레이션 파이프라인; (2) 하이브리드 VAE-DiT 기하학 생성기와 확산 기반 텍스처 합성 모듈을 결합한 2단계 3D 네이티브 아키텍처; (3) 모델, 학습 코드, 적응 모듈의 완전한 오픈소스 공개. 기하학 생성의 경우, 하이브리드 VAE-DiT 구성 요소는 디테일 보존을 위한 날카로운 엣지 샘플링과 퍼시버 기반 잠재 인코딩을 사용하여 TSDF 표현을 생성합니다. 확산 기반 텍스처 합성 모듈은 기하학적 조건화와 잠재 공간 동기화를 통해 크로스 뷰 일관성을 보장합니다. 벤치마크 결과는 기존의 오픈소스 방법들을 능가하는 최첨단 성능을 보여주며, 독점 솔루션과도 경쟁력 있는 품질을 달성합니다. 특히, 이 프레임워크는 2D 제어 기술(예: LoRA)을 3D 합성으로 직접 전환할 수 있도록 지원함으로써 2D와 3D 생성 패러다임을 독창적으로 연결합니다. Step1X-3D는 데이터 품질, 알고리즘 충실도, 재현성을 동시에 발전시켜 제어 가능한 3D 자산 생성 분야의 오픈 연구에 새로운 기준을 세우고자 합니다.
English
While generative artificial intelligence has advanced significantly across
text, image, audio, and video domains, 3D generation remains comparatively
underdeveloped due to fundamental challenges such as data scarcity, algorithmic
limitations, and ecosystem fragmentation. To this end, we present Step1X-3D, an
open framework addressing these challenges through: (1) a rigorous data
curation pipeline processing >5M assets to create a 2M high-quality dataset
with standardized geometric and textural properties; (2) a two-stage 3D-native
architecture combining a hybrid VAE-DiT geometry generator with an
diffusion-based texture synthesis module; and (3) the full open-source release
of models, training code, and adaptation modules. For geometry generation, the
hybrid VAE-DiT component produces TSDF representations by employing
perceiver-based latent encoding with sharp edge sampling for detail
preservation. The diffusion-based texture synthesis module then ensures
cross-view consistency through geometric conditioning and latent-space
synchronization. Benchmark results demonstrate state-of-the-art performance
that exceeds existing open-source methods, while also achieving competitive
quality with proprietary solutions. Notably, the framework uniquely bridges the
2D and 3D generation paradigms by supporting direct transfer of 2D control
techniques~(e.g., LoRA) to 3D synthesis. By simultaneously advancing data
quality, algorithmic fidelity, and reproducibility, Step1X-3D aims to establish
new standards for open research in controllable 3D asset generation.Summary
AI-Generated Summary