ChatPaper.aiChatPaper

Real3D: Skalierung großer Rekonstruktionsmodelle mit realen Bildern aus der Welt

Real3D: Scaling Up Large Reconstruction Models with Real-World Images

June 12, 2024
Autoren: Hanwen Jiang, Qixing Huang, Georgios Pavlakos
cs.AI

Zusammenfassung

Die Standardstrategie zur Schulung von Large Reconstruction Models (LRMs) mit einem einzigen Ansichtspunkt folgt dem vollständig überwachten Ansatz unter Verwendung von umfangreichen Datensätzen synthetischer 3D-Objekte oder Mehrfachansichtsaufnahmen. Obwohl diese Ressourcen das Schulungsverfahren vereinfachen, sind sie schwer über die bestehenden Datensätze hinaus zu skalieren und repräsentieren nicht unbedingt die tatsächliche Verteilung von Objektformen. Um diese Einschränkungen zu bewältigen, stellen wir in diesem Papier Real3D vor, das erste LRM-System, das mit Einzelansicht realer Bilder trainiert werden kann. Real3D führt ein neuartiges Selbstschulungs-Framework ein, das sowohl von den vorhandenen synthetischen Daten als auch von verschiedenen Einzelansichtsrealbildern profitieren kann. Wir schlagen zwei unüberwachte Verluste vor, die es uns ermöglichen, LRMs auf Pixel- und semantischer Ebene zu überwachen, selbst für Schulungsbeispiele ohne 3D-Grundwahrheit oder neuartige Ansichten. Um die Leistung weiter zu verbessern und die Bilddaten zu skalieren, entwickeln wir einen automatischen Datenkuratierungsansatz, um hochwertige Beispiele aus Bildern in freier Wildbahn zu sammeln. Unsere Experimente zeigen, dass Real3D in vier verschiedenen Evaluierungseinstellungen, die reale und synthetische Daten sowie sowohl in- als auch out-of-domain Formen umfassen, konsistent bessere Leistungen erbringt als frühere Arbeiten. Der Code und das Modell sind hier zu finden: https://hwjiang1510.github.io/Real3D/
English
The default strategy for training single-view Large Reconstruction Models (LRMs) follows the fully supervised route using large-scale datasets of synthetic 3D assets or multi-view captures. Although these resources simplify the training procedure, they are hard to scale up beyond the existing datasets and they are not necessarily representative of the real distribution of object shapes. To address these limitations, in this paper, we introduce Real3D, the first LRM system that can be trained using single-view real-world images. Real3D introduces a novel self-training framework that can benefit from both the existing synthetic data and diverse single-view real images. We propose two unsupervised losses that allow us to supervise LRMs at the pixel- and semantic-level, even for training examples without ground-truth 3D or novel views. To further improve performance and scale up the image data, we develop an automatic data curation approach to collect high-quality examples from in-the-wild images. Our experiments show that Real3D consistently outperforms prior work in four diverse evaluation settings that include real and synthetic data, as well as both in-domain and out-of-domain shapes. Code and model can be found here: https://hwjiang1510.github.io/Real3D/

Summary

AI-Generated Summary

PDF71December 6, 2024