Real3D : Mise à l'échelle des modèles de reconstruction à grande échelle avec des images du monde réel
Real3D: Scaling Up Large Reconstruction Models with Real-World Images
June 12, 2024
Auteurs: Hanwen Jiang, Qixing Huang, Georgios Pavlakos
cs.AI
Résumé
La stratégie par défaut pour entraîner les modèles de reconstruction à grande échelle (LRM) à vue unique suit généralement une approche supervisée utilisant des jeux de données à grande échelle d'actifs 3D synthétiques ou de captures multi-vues. Bien que ces ressources simplifient le processus d'entraînement, elles sont difficiles à étendre au-delà des jeux de données existants et ne sont pas nécessairement représentatives de la distribution réelle des formes d'objets. Pour surmonter ces limitations, nous présentons dans cet article Real3D, le premier système LRM pouvant être entraîné à l'aide d'images réelles à vue unique. Real3D introduit un cadre d'auto-apprentissage innovant qui tire parti à la fois des données synthétiques existantes et d'images réelles à vue unique diversifiées. Nous proposons deux fonctions de coût non supervisées permettant de superviser les LRMs au niveau des pixels et de la sémantique, même pour des exemples d'entraînement sans vérité terrain 3D ou vues supplémentaires. Pour améliorer encore les performances et étendre les données d'images, nous développons une méthode de curation automatique des données afin de collecter des exemples de haute qualité à partir d'images en conditions réelles. Nos expériences montrent que Real3D surpasse systématiquement les travaux antérieurs dans quatre contextes d'évaluation diversifiés, incluant des données réelles et synthétiques, ainsi que des formes dans et hors du domaine d'apprentissage. Le code et le modèle sont disponibles ici : https://hwjiang1510.github.io/Real3D/
English
The default strategy for training single-view Large Reconstruction Models
(LRMs) follows the fully supervised route using large-scale datasets of
synthetic 3D assets or multi-view captures. Although these resources simplify
the training procedure, they are hard to scale up beyond the existing datasets
and they are not necessarily representative of the real distribution of object
shapes. To address these limitations, in this paper, we introduce Real3D, the
first LRM system that can be trained using single-view real-world images.
Real3D introduces a novel self-training framework that can benefit from both
the existing synthetic data and diverse single-view real images. We propose two
unsupervised losses that allow us to supervise LRMs at the pixel- and
semantic-level, even for training examples without ground-truth 3D or novel
views. To further improve performance and scale up the image data, we develop
an automatic data curation approach to collect high-quality examples from
in-the-wild images. Our experiments show that Real3D consistently outperforms
prior work in four diverse evaluation settings that include real and synthetic
data, as well as both in-domain and out-of-domain shapes. Code and model can be
found here: https://hwjiang1510.github.io/Real3D/Summary
AI-Generated Summary