TripoSG: Síntesis de Formas 3D de Alta Fidelidad utilizando Modelos de Flujo Rectificado a Gran Escala
TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models
February 10, 2025
Autores: Yangguang Li, Zi-Xin Zou, Zexiang Liu, Dehu Wang, Yuan Liang, Zhipeng Yu, Xingchao Liu, Yuan-Chen Guo, Ding Liang, Wanli Ouyang, Yan-Pei Cao
cs.AI
Resumen
Los avances recientes en técnicas de difusión han impulsado la generación de imágenes y videos a niveles de calidad sin precedentes, acelerando significativamente la implementación y aplicación de la IA generativa. Sin embargo, la tecnología de generación de formas 3D ha quedado rezagada hasta ahora, limitada por restricciones en la escala de datos 3D, la complejidad del procesamiento de datos 3D y la insuficiente exploración de técnicas avanzadas en el dominio 3D. Los enfoques actuales para la generación de formas 3D enfrentan desafíos sustanciales en cuanto a calidad de salida, capacidad de generalización y alineación con las condiciones de entrada. Presentamos TripoSG, un nuevo paradigma de difusión de formas simplificado capaz de generar mallas 3D de alta fidelidad con correspondencia precisa a imágenes de entrada. Específicamente, proponemos: 1) Un transformador de flujo rectificado a gran escala para la generación de formas 3D, logrando fidelidad de vanguardia mediante el entrenamiento en datos extensos y de alta calidad. 2) Una estrategia de entrenamiento supervisado híbrido que combina pérdidas SDF, normales y eikonales para VAE 3D, logrando un rendimiento de reconstrucción 3D de alta calidad. 3) Un pipeline de procesamiento de datos para generar 2 millones de muestras 3D de alta calidad, resaltando las reglas cruciales para la calidad y cantidad de datos en el entrenamiento de modelos generativos 3D. A través de experimentos exhaustivos, hemos validado la efectividad de cada componente en nuestro nuevo marco de trabajo. La integración perfecta de estas partes ha permitido a TripoSG lograr un rendimiento de vanguardia en la generación de formas 3D. Las formas 3D resultantes exhiben un detalle mejorado debido a las capacidades de alta resolución y demuestran una fidelidad excepcional a las imágenes de entrada. Además, TripoSG muestra una versatilidad mejorada en la generación de modelos 3D a partir de diversos estilos y contenidos de imágenes, mostrando sólidas capacidades de generalización. Para fomentar el progreso y la innovación en el campo de la generación 3D, haremos nuestro modelo públicamente disponible.
English
Recent advancements in diffusion techniques have propelled image and video
generation to unprece- dented levels of quality, significantly accelerating the
deployment and application of generative AI. However, 3D shape generation
technology has so far lagged behind, constrained by limitations in 3D data
scale, complexity of 3D data process- ing, and insufficient exploration of
advanced tech- niques in the 3D domain. Current approaches to 3D shape
generation face substantial challenges in terms of output quality,
generalization capa- bility, and alignment with input conditions. We present
TripoSG, a new streamlined shape diffu- sion paradigm capable of generating
high-fidelity 3D meshes with precise correspondence to input images.
Specifically, we propose: 1) A large-scale rectified flow transformer for 3D
shape generation, achieving state-of-the-art fidelity through training on
extensive, high-quality data. 2) A hybrid supervised training strategy
combining SDF, normal, and eikonal losses for 3D VAE, achieving high- quality
3D reconstruction performance. 3) A data processing pipeline to generate 2
million high- quality 3D samples, highlighting the crucial rules for data
quality and quantity in training 3D gen- erative models. Through comprehensive
experi- ments, we have validated the effectiveness of each component in our new
framework. The seamless integration of these parts has enabled TripoSG to
achieve state-of-the-art performance in 3D shape generation. The resulting 3D
shapes exhibit en- hanced detail due to high-resolution capabilities and
demonstrate exceptional fidelity to input im- ages. Moreover, TripoSG
demonstrates improved versatility in generating 3D models from diverse image
styles and contents, showcasing strong gen- eralization capabilities. To foster
progress and innovation in the field of 3D generation, we will make our model
publicly available.