ChatPaper.aiChatPaper

Real3D: Escalando Modelos de Reconstrucción a Gran Escala con Imágenes del Mundo Real

Real3D: Scaling Up Large Reconstruction Models with Real-World Images

June 12, 2024
Autores: Hanwen Jiang, Qixing Huang, Georgios Pavlakos
cs.AI

Resumen

La estrategia predeterminada para entrenar Modelos de Reconstrucción a Gran Escala (LRMs) de vista única sigue el enfoque de supervisión completa utilizando conjuntos de datos a gran escala de activos 3D sintéticos o capturas multivista. Aunque estos recursos simplifican el procedimiento de entrenamiento, son difíciles de escalar más allá de los conjuntos de datos existentes y no son necesariamente representativos de la distribución real de formas de objetos. Para abordar estas limitaciones, en este artículo presentamos Real3D, el primer sistema LRM que puede entrenarse utilizando imágenes del mundo real de vista única. Real3D introduce un novedoso marco de autoentrenamiento que puede beneficiarse tanto de los datos sintéticos existentes como de diversas imágenes reales de vista única. Proponemos dos pérdidas no supervisadas que nos permiten supervisar los LRMs a nivel de píxel y semántico, incluso para ejemplos de entrenamiento sin datos de verdad terreno 3D o vistas novedosas. Para mejorar aún más el rendimiento y escalar los datos de imágenes, desarrollamos un enfoque de curación automática de datos para recopilar ejemplos de alta calidad a partir de imágenes en entornos no controlados. Nuestros experimentos muestran que Real3D supera consistentemente trabajos anteriores en cuatro entornos de evaluación diversos que incluyen datos reales y sintéticos, así como formas tanto dentro como fuera del dominio. El código y el modelo se pueden encontrar aquí: https://hwjiang1510.github.io/Real3D/
English
The default strategy for training single-view Large Reconstruction Models (LRMs) follows the fully supervised route using large-scale datasets of synthetic 3D assets or multi-view captures. Although these resources simplify the training procedure, they are hard to scale up beyond the existing datasets and they are not necessarily representative of the real distribution of object shapes. To address these limitations, in this paper, we introduce Real3D, the first LRM system that can be trained using single-view real-world images. Real3D introduces a novel self-training framework that can benefit from both the existing synthetic data and diverse single-view real images. We propose two unsupervised losses that allow us to supervise LRMs at the pixel- and semantic-level, even for training examples without ground-truth 3D or novel views. To further improve performance and scale up the image data, we develop an automatic data curation approach to collect high-quality examples from in-the-wild images. Our experiments show that Real3D consistently outperforms prior work in four diverse evaluation settings that include real and synthetic data, as well as both in-domain and out-of-domain shapes. Code and model can be found here: https://hwjiang1510.github.io/Real3D/

Summary

AI-Generated Summary

PDF71December 6, 2024