ChatPaper.aiChatPaper

TripoSG: Sintesi di forme 3D ad alta fedeltà utilizzando modelli di flusso rettificato su larga scala

TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

February 10, 2025
Autori: Yangguang Li, Zi-Xin Zou, Zexiang Liu, Dehu Wang, Yuan Liang, Zhipeng Yu, Xingchao Liu, Yuan-Chen Guo, Ding Liang, Wanli Ouyang, Yan-Pei Cao
cs.AI

Abstract

I recenti progressi nelle tecniche di diffusione hanno spinto la generazione di immagini e video a livelli di qualità senza precedenti, accelerando significativamente la distribuzione e l'applicazione dell'IA generativa. Tuttavia, la tecnologia di generazione di forme 3D finora è rimasta indietro, limitata dalle dimensioni dei dati 3D, dalla complessità dell'elaborazione dei dati 3D e dalla scarsa esplorazione delle tecniche avanzate nel dominio 3D. Gli approcci attuali alla generazione di forme 3D affrontano notevoli sfide in termini di qualità dell'output, capacità di generalizzazione e allineamento alle condizioni di input. Presentiamo TripoSG, un nuovo paradigma di diffusione di forme snello in grado di generare mesh 3D ad alta fedeltà con corrispondenza precisa alle immagini di input. In particolare, proponiamo: 1) Un trasformatore di flusso rettificato su larga scala per la generazione di forme 3D, raggiungendo una fedeltà all'avanguardia attraverso l'addestramento su dati estesi e di alta qualità. 2) Una strategia di addestramento supervisionato ibrida che combina perdite SDF, normali ed eikonali per VAE 3D, ottenendo prestazioni di ricostruzione 3D di alta qualità. 3) Un flusso di elaborazione dati per generare 2 milioni di campioni 3D di alta qualità, evidenziando le regole cruciali per la qualità e quantità dei dati nell'addestramento di modelli generativi 3D. Attraverso esperimenti completi, abbiamo convalidato l'efficacia di ciascun componente nel nostro nuovo framework. L'integrazione senza soluzione di continuità di queste parti ha permesso a TripoSG di raggiungere prestazioni all'avanguardia nella generazione di forme 3D. Le forme 3D risultanti mostrano dettagli migliorati grazie alle capacità ad alta risoluzione e dimostrano una fedeltà eccezionale alle immagini di input. Inoltre, TripoSG dimostra una maggiore versatilità nella generazione di modelli 3D da stili e contenuti di immagini diversi, mostrando forti capacità di generalizzazione. Per promuovere il progresso e l'innovazione nel campo della generazione 3D, renderemo il nostro modello pubblicamente disponibile.
English
Recent advancements in diffusion techniques have propelled image and video generation to unprece- dented levels of quality, significantly accelerating the deployment and application of generative AI. However, 3D shape generation technology has so far lagged behind, constrained by limitations in 3D data scale, complexity of 3D data process- ing, and insufficient exploration of advanced tech- niques in the 3D domain. Current approaches to 3D shape generation face substantial challenges in terms of output quality, generalization capa- bility, and alignment with input conditions. We present TripoSG, a new streamlined shape diffu- sion paradigm capable of generating high-fidelity 3D meshes with precise correspondence to input images. Specifically, we propose: 1) A large-scale rectified flow transformer for 3D shape generation, achieving state-of-the-art fidelity through training on extensive, high-quality data. 2) A hybrid supervised training strategy combining SDF, normal, and eikonal losses for 3D VAE, achieving high- quality 3D reconstruction performance. 3) A data processing pipeline to generate 2 million high- quality 3D samples, highlighting the crucial rules for data quality and quantity in training 3D gen- erative models. Through comprehensive experi- ments, we have validated the effectiveness of each component in our new framework. The seamless integration of these parts has enabled TripoSG to achieve state-of-the-art performance in 3D shape generation. The resulting 3D shapes exhibit en- hanced detail due to high-resolution capabilities and demonstrate exceptional fidelity to input im- ages. Moreover, TripoSG demonstrates improved versatility in generating 3D models from diverse image styles and contents, showcasing strong gen- eralization capabilities. To foster progress and innovation in the field of 3D generation, we will make our model publicly available.

Summary

AI-Generated Summary

PDF414February 14, 2025