Real3D:実世界画像を用いた大規模再構成モデルのスケールアップ
Real3D: Scaling Up Large Reconstruction Models with Real-World Images
June 12, 2024
著者: Hanwen Jiang, Qixing Huang, Georgios Pavlakos
cs.AI
要旨
単一視点の大規模再構築モデル(LRM)を訓練するデフォルトの戦略は、合成3Dアセットやマルチビューキャプチャの大規模データセットを使用した完全教師ありのアプローチに従っています。これらのリソースは訓練プロセスを簡素化しますが、既存のデータセットを超えてスケールアップすることは難しく、必ずしも現実の物体形状の分布を代表しているわけではありません。これらの制限に対処するため、本論文では、単一視点の実世界画像を使用して訓練可能な最初のLRMシステムであるReal3Dを紹介します。Real3Dは、既存の合成データと多様な単一視点の実画像の両方から恩恵を受けることができる新しい自己訓練フレームワークを導入します。我々は、3Dのグラウンドトゥルースや新規ビューがない訓練例に対しても、ピクセルレベルおよびセマンティックレベルでLRMを監督することを可能にする2つの教師なし損失を提案します。さらに、性能を向上させ、画像データをスケールアップするために、野外画像から高品質な例を収集する自動データキュレーション手法を開発しました。我々の実験では、Real3Dが、実データと合成データ、およびドメイン内とドメイン外の形状を含む4つの多様な評価設定において、従来の研究を一貫して上回ることを示しています。コードとモデルはこちらで確認できます: https://hwjiang1510.github.io/Real3D/
English
The default strategy for training single-view Large Reconstruction Models
(LRMs) follows the fully supervised route using large-scale datasets of
synthetic 3D assets or multi-view captures. Although these resources simplify
the training procedure, they are hard to scale up beyond the existing datasets
and they are not necessarily representative of the real distribution of object
shapes. To address these limitations, in this paper, we introduce Real3D, the
first LRM system that can be trained using single-view real-world images.
Real3D introduces a novel self-training framework that can benefit from both
the existing synthetic data and diverse single-view real images. We propose two
unsupervised losses that allow us to supervise LRMs at the pixel- and
semantic-level, even for training examples without ground-truth 3D or novel
views. To further improve performance and scale up the image data, we develop
an automatic data curation approach to collect high-quality examples from
in-the-wild images. Our experiments show that Real3D consistently outperforms
prior work in four diverse evaluation settings that include real and synthetic
data, as well as both in-domain and out-of-domain shapes. Code and model can be
found here: https://hwjiang1510.github.io/Real3D/Summary
AI-Generated Summary