TripoSG:大規模な整流フローモデルを用いた高精度3D形状合成
TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models
February 10, 2025
著者: Yangguang Li, Zi-Xin Zou, Zexiang Liu, Dehu Wang, Yuan Liang, Zhipeng Yu, Xingchao Liu, Yuan-Chen Guo, Ding Liang, Wanli Ouyang, Yan-Pei Cao
cs.AI
要旨
最近の拡散技術の進歩により、画像およびビデオ生成は前例のない品質レベルに押し上げられ、生成AIの展開と応用が著しく加速されています。しかし、3D形状生成技術はこれまでに遅れをとっており、3Dデータの規模の制約、3Dデータ処理の複雑さ、および3D領域での高度な技術の探求が不十分であるという制約を受けています。現在の3D形状生成アプローチは、出力品質、一般化能力、および入力条件との整合性の観点から重大な課題に直面しています。私たちは、入力画像と正確に対応する高品質な3Dメッシュを生成することができる新しい合理化された形状拡散パラダイムであるTripoSGを提案します。具体的には、以下を提案します:1) 3D形状生成のための大規模な整流フロー変換器を使用し、広範囲で高品質なデータにトレーニングすることで最先端の忠実度を実現します。2) SDF、法線、およびeikonal損失を組み合わせたハイブリッド教師付きトレーニング戦略を提案し、高品質な3D再構築性能を達成します。3) データ処理パイプラインを使用して、2百万の高品質な3Dサンプルを生成し、3D生成モデルのトレーニングにおけるデータ品質と量の重要なルールを強調します。包括的な実験を通じて、新しいフレームワークの各コンポーネントの効果を検証しました。これらの部分のシームレスな統合により、TripoSGは3D形状生成において最先端のパフォーマンスを達成しました。結果として得られた3D形状は、高解像度の能力による強化された詳細を示し、入力画像に対する例外的な忠実度を示しています。さらに、TripoSGは、異なる画像スタイルとコンテンツから3Dモデルを生成する際の改善された汎用性を示し、強力な一般化能力を示しています。3D生成分野での進歩と革新を促進するために、当社のモデルを一般に公開します。
English
Recent advancements in diffusion techniques have propelled image and video
generation to unprece- dented levels of quality, significantly accelerating the
deployment and application of generative AI. However, 3D shape generation
technology has so far lagged behind, constrained by limitations in 3D data
scale, complexity of 3D data process- ing, and insufficient exploration of
advanced tech- niques in the 3D domain. Current approaches to 3D shape
generation face substantial challenges in terms of output quality,
generalization capa- bility, and alignment with input conditions. We present
TripoSG, a new streamlined shape diffu- sion paradigm capable of generating
high-fidelity 3D meshes with precise correspondence to input images.
Specifically, we propose: 1) A large-scale rectified flow transformer for 3D
shape generation, achieving state-of-the-art fidelity through training on
extensive, high-quality data. 2) A hybrid supervised training strategy
combining SDF, normal, and eikonal losses for 3D VAE, achieving high- quality
3D reconstruction performance. 3) A data processing pipeline to generate 2
million high- quality 3D samples, highlighting the crucial rules for data
quality and quantity in training 3D gen- erative models. Through comprehensive
experi- ments, we have validated the effectiveness of each component in our new
framework. The seamless integration of these parts has enabled TripoSG to
achieve state-of-the-art performance in 3D shape generation. The resulting 3D
shapes exhibit en- hanced detail due to high-resolution capabilities and
demonstrate exceptional fidelity to input im- ages. Moreover, TripoSG
demonstrates improved versatility in generating 3D models from diverse image
styles and contents, showcasing strong gen- eralization capabilities. To foster
progress and innovation in the field of 3D generation, we will make our model
publicly available.