Real3D: Het opschalen van grote reconstructiemodellen met real-world afbeeldingen
Real3D: Scaling Up Large Reconstruction Models with Real-World Images
June 12, 2024
Auteurs: Hanwen Jiang, Qixing Huang, Georgios Pavlakos
cs.AI
Samenvatting
De standaardstrategie voor het trainen van single-view Large Reconstruction Models (LRMs) volgt de volledig gesuperviseerde aanpak met behulp van grootschalige datasets van synthetische 3D-assets of multi-view opnames. Hoewel deze bronnen het trainingsproces vereenvoudigen, zijn ze moeilijk op te schalen buiten de bestaande datasets en zijn ze niet noodzakelijk representatief voor de werkelijke verdeling van objectvormen. Om deze beperkingen aan te pakken, introduceren we in dit artikel Real3D, het eerste LRM-systeem dat getraind kan worden met single-view real-world afbeeldingen. Real3D introduceert een nieuw zelf-trainingsraamwerk dat kan profiteren van zowel de bestaande synthetische data als diverse single-view realistische afbeeldingen. We stellen twee ongecontroleerde verliesfuncties voor die het mogelijk maken om LRMs te superviseren op pixelniveau en semantisch niveau, zelfs voor trainingsvoorbeelden zonder grondwaarheid 3D of nieuwe views. Om de prestaties verder te verbeteren en de beelddata op te schalen, ontwikkelen we een automatische datacuratiebenadering om hoogwaardige voorbeelden te verzamelen uit in-the-wild afbeeldingen. Onze experimenten tonen aan dat Real3D consistent beter presteert dan eerder werk in vier diverse evaluatieomgevingen die zowel realistische als synthetische data omvatten, evenals zowel in-domein als out-of-domein vormen. Code en model zijn hier te vinden: https://hwjiang1510.github.io/Real3D/
English
The default strategy for training single-view Large Reconstruction Models
(LRMs) follows the fully supervised route using large-scale datasets of
synthetic 3D assets or multi-view captures. Although these resources simplify
the training procedure, they are hard to scale up beyond the existing datasets
and they are not necessarily representative of the real distribution of object
shapes. To address these limitations, in this paper, we introduce Real3D, the
first LRM system that can be trained using single-view real-world images.
Real3D introduces a novel self-training framework that can benefit from both
the existing synthetic data and diverse single-view real images. We propose two
unsupervised losses that allow us to supervise LRMs at the pixel- and
semantic-level, even for training examples without ground-truth 3D or novel
views. To further improve performance and scale up the image data, we develop
an automatic data curation approach to collect high-quality examples from
in-the-wild images. Our experiments show that Real3D consistently outperforms
prior work in four diverse evaluation settings that include real and synthetic
data, as well as both in-domain and out-of-domain shapes. Code and model can be
found here: https://hwjiang1510.github.io/Real3D/