ChatPaper.aiChatPaper

Step1X-3D: Hacia la Generación de Activos 3D Texturizados de Alta Fidelidad y Controlable

Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

May 12, 2025
Autores: Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan
cs.AI

Resumen

Si bien la inteligencia artificial generativa ha avanzado significativamente en los dominios de texto, imagen, audio y video, la generación 3D sigue estando relativamente poco desarrollada debido a desafíos fundamentales como la escasez de datos, limitaciones algorítmicas y la fragmentación del ecosistema. Para abordar esto, presentamos Step1X-3D, un marco abierto que resuelve estos desafíos mediante: (1) una rigurosa canalización de curación de datos que procesa más de 5M de activos para crear un conjunto de datos de 2M de alta calidad con propiedades geométricas y texturales estandarizadas; (2) una arquitectura nativa 3D en dos etapas que combina un generador de geometría híbrido VAE-DiT con un módulo de síntesis de texturas basado en difusión; y (3) la liberación completa de código abierto de modelos, código de entrenamiento y módulos de adaptación. Para la generación de geometría, el componente híbrido VAE-DiT produce representaciones TSDF empleando codificación latente basada en perceiver con muestreo de bordes nítidos para preservar detalles. El módulo de síntesis de texturas basado en difusión asegura la consistencia entre vistas mediante condicionamiento geométrico y sincronización en el espacio latente. Los resultados de referencia demuestran un rendimiento de vanguardia que supera los métodos de código abierto existentes, al mismo tiempo que alcanza una calidad competitiva con soluciones propietarias. Notablemente, el marco conecta de manera única los paradigmas de generación 2D y 3D al permitir la transferencia directa de técnicas de control 2D (por ejemplo, LoRA) a la síntesis 3D. Al avanzar simultáneamente en la calidad de los datos, la fidelidad algorítmica y la reproducibilidad, Step1X-3D busca establecer nuevos estándares para la investigación abierta en la generación controlada de activos 3D.
English
While generative artificial intelligence has advanced significantly across text, image, audio, and video domains, 3D generation remains comparatively underdeveloped due to fundamental challenges such as data scarcity, algorithmic limitations, and ecosystem fragmentation. To this end, we present Step1X-3D, an open framework addressing these challenges through: (1) a rigorous data curation pipeline processing >5M assets to create a 2M high-quality dataset with standardized geometric and textural properties; (2) a two-stage 3D-native architecture combining a hybrid VAE-DiT geometry generator with an diffusion-based texture synthesis module; and (3) the full open-source release of models, training code, and adaptation modules. For geometry generation, the hybrid VAE-DiT component produces TSDF representations by employing perceiver-based latent encoding with sharp edge sampling for detail preservation. The diffusion-based texture synthesis module then ensures cross-view consistency through geometric conditioning and latent-space synchronization. Benchmark results demonstrate state-of-the-art performance that exceeds existing open-source methods, while also achieving competitive quality with proprietary solutions. Notably, the framework uniquely bridges the 2D and 3D generation paradigms by supporting direct transfer of 2D control techniques~(e.g., LoRA) to 3D synthesis. By simultaneously advancing data quality, algorithmic fidelity, and reproducibility, Step1X-3D aims to establish new standards for open research in controllable 3D asset generation.

Summary

AI-Generated Summary

PDF441May 13, 2025