ChatPaper.aiChatPaper

TripoSG : Synthèse de formes 3D haute fidélité à l'aide de modèles de flux rectifiés à grande échelle

TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

February 10, 2025
Auteurs: Yangguang Li, Zi-Xin Zou, Zexiang Liu, Dehu Wang, Yuan Liang, Zhipeng Yu, Xingchao Liu, Yuan-Chen Guo, Ding Liang, Wanli Ouyang, Yan-Pei Cao
cs.AI

Résumé

Les récents progrès dans les techniques de diffusion ont propulsé la génération d'images et de vidéos à des niveaux de qualité sans précédent, accélérant significativement le déploiement et l'application de l'IA générative. Cependant, la technologie de génération de formes 3D a jusqu'à présent accusé un retard, entravée par des limitations dans l'échelle des données 3D, la complexité du traitement des données 3D, et une exploration insuffisante des techniques avancées dans le domaine 3D. Les approches actuelles de génération de formes 3D rencontrent d'importants défis en termes de qualité de sortie, de capacité de généralisation et d'alignement avec les conditions d'entrée. Nous présentons TripoSG, un nouveau paradigme de diffusion de formes rationalisé capable de générer des maillages 3D de haute fidélité avec une correspondance précise aux images d'entrée. Plus précisément, nous proposons : 1) Un transformateur de flux rectifié à grande échelle pour la génération de formes 3D, atteignant un niveau de fidélité de pointe grâce à un entraînement sur des données étendues et de haute qualité. 2) Une stratégie d'entraînement supervisée hybride combinant des pertes SDF, normales et eikonal pour les VAE 3D, atteignant des performances de reconstruction 3D de haute qualité. 3) Un pipeline de traitement des données pour générer 2 millions d'échantillons 3D de haute qualité, mettant en lumière les règles cruciales pour la qualité et la quantité des données dans l'entraînement des modèles génératifs 3D. À travers des expériences complètes, nous avons validé l'efficacité de chaque composant de notre nouveau cadre. L'intégration transparente de ces parties a permis à TripoSG d'atteindre des performances de pointe en matière de génération de formes 3D. Les formes 3D résultantes présentent des détails améliorés grâce à des capacités haute résolution et démontrent une fidélité exceptionnelle aux images d'entrée. De plus, TripoSG démontre une polyvalence améliorée dans la génération de modèles 3D à partir de styles et de contenus d'images divers, mettant en valeur de solides capacités de généralisation. Pour favoriser le progrès et l'innovation dans le domaine de la génération 3D, nous rendrons notre modèle publiquement disponible.
English
Recent advancements in diffusion techniques have propelled image and video generation to unprece- dented levels of quality, significantly accelerating the deployment and application of generative AI. However, 3D shape generation technology has so far lagged behind, constrained by limitations in 3D data scale, complexity of 3D data process- ing, and insufficient exploration of advanced tech- niques in the 3D domain. Current approaches to 3D shape generation face substantial challenges in terms of output quality, generalization capa- bility, and alignment with input conditions. We present TripoSG, a new streamlined shape diffu- sion paradigm capable of generating high-fidelity 3D meshes with precise correspondence to input images. Specifically, we propose: 1) A large-scale rectified flow transformer for 3D shape generation, achieving state-of-the-art fidelity through training on extensive, high-quality data. 2) A hybrid supervised training strategy combining SDF, normal, and eikonal losses for 3D VAE, achieving high- quality 3D reconstruction performance. 3) A data processing pipeline to generate 2 million high- quality 3D samples, highlighting the crucial rules for data quality and quantity in training 3D gen- erative models. Through comprehensive experi- ments, we have validated the effectiveness of each component in our new framework. The seamless integration of these parts has enabled TripoSG to achieve state-of-the-art performance in 3D shape generation. The resulting 3D shapes exhibit en- hanced detail due to high-resolution capabilities and demonstrate exceptional fidelity to input im- ages. Moreover, TripoSG demonstrates improved versatility in generating 3D models from diverse image styles and contents, showcasing strong gen- eralization capabilities. To foster progress and innovation in the field of 3D generation, we will make our model publicly available.

Summary

AI-Generated Summary

PDF414February 14, 2025