ChatPaper.aiChatPaper

Real3D: Scalabilità dei Modelli di Ricostruzione su Grande Scala con Immagini del Mondo Reale

Real3D: Scaling Up Large Reconstruction Models with Real-World Images

June 12, 2024
Autori: Hanwen Jiang, Qixing Huang, Georgios Pavlakos
cs.AI

Abstract

La strategia predefinita per l'addestramento di modelli di ricostruzione su larga scala (LRM) a vista singola segue l'approccio supervisionato completo, utilizzando dataset su larga scala di asset 3D sintetici o acquisizioni multi-vista. Sebbene queste risorse semplifichino il processo di addestramento, sono difficili da scalare oltre i dataset esistenti e non sono necessariamente rappresentative della distribuzione reale delle forme degli oggetti. Per affrontare queste limitazioni, in questo articolo introduciamo Real3D, il primo sistema LRM che può essere addestrato utilizzando immagini reali a vista singola. Real3D introduce un nuovo framework di auto-addestramento che può trarre vantaggio sia dai dati sintetici esistenti che da immagini reali a vista singola e diversificate. Proponiamo due funzioni di perdita non supervisionate che ci consentono di supervisionare gli LRM a livello di pixel e semantico, anche per esempi di addestramento senza verità di base 3D o nuove viste. Per migliorare ulteriormente le prestazioni e scalare i dati delle immagini, sviluppiamo un approccio automatico di curatela dei dati per raccogliere esempi di alta qualità da immagini in-the-wild. I nostri esperimenti dimostrano che Real3D supera costantemente il lavoro precedente in quattro contesti di valutazione diversi che includono dati reali e sintetici, nonché forme sia in dominio che fuori dominio. Codice e modello possono essere trovati qui: https://hwjiang1510.github.io/Real3D/
English
The default strategy for training single-view Large Reconstruction Models (LRMs) follows the fully supervised route using large-scale datasets of synthetic 3D assets or multi-view captures. Although these resources simplify the training procedure, they are hard to scale up beyond the existing datasets and they are not necessarily representative of the real distribution of object shapes. To address these limitations, in this paper, we introduce Real3D, the first LRM system that can be trained using single-view real-world images. Real3D introduces a novel self-training framework that can benefit from both the existing synthetic data and diverse single-view real images. We propose two unsupervised losses that allow us to supervise LRMs at the pixel- and semantic-level, even for training examples without ground-truth 3D or novel views. To further improve performance and scale up the image data, we develop an automatic data curation approach to collect high-quality examples from in-the-wild images. Our experiments show that Real3D consistently outperforms prior work in four diverse evaluation settings that include real and synthetic data, as well as both in-domain and out-of-domain shapes. Code and model can be found here: https://hwjiang1510.github.io/Real3D/
PDF71February 7, 2026