Real3D: Ampliando Modelos de Reconstrução em Grande Escala com Imagens do Mundo Real
Real3D: Scaling Up Large Reconstruction Models with Real-World Images
June 12, 2024
Autores: Hanwen Jiang, Qixing Huang, Georgios Pavlakos
cs.AI
Resumo
A estratégia padrão para treinar Modelos de Grande Reconstrução (LRMs) de visão única segue o caminho totalmente supervisionado, utilizando conjuntos de dados em larga escala de ativos 3D sintéticos ou capturas multivista. Embora esses recursos simplifiquem o procedimento de treinamento, eles são difíceis de escalar além dos conjuntos de dados existentes e não são necessariamente representativos da distribuição real das formas dos objetos. Para abordar essas limitações, neste artigo, apresentamos o Real3D, o primeiro sistema LRM que pode ser treinado utilizando imagens reais de visão única. O Real3D introduz uma nova estrutura de autotreino que pode se beneficiar tanto dos dados sintéticos existentes quanto de diversas imagens reais de visão única. Propomos duas perdas não supervisionadas que nos permitem supervisionar os LRMs em nível de pixel e semântico, mesmo para exemplos de treinamento sem verdade terrestre 3D ou novas vistas. Para melhorar ainda mais o desempenho e escalar os dados de imagem, desenvolvemos uma abordagem automática de curadoria de dados para coletar exemplos de alta qualidade a partir de imagens capturadas em ambientes reais. Nossos experimentos mostram que o Real3D supera consistentemente trabalhos anteriores em quatro configurações de avaliação diversas, que incluem dados reais e sintéticos, bem como formas dentro e fora do domínio. O código e o modelo podem ser encontrados aqui: https://hwjiang1510.github.io/Real3D/
English
The default strategy for training single-view Large Reconstruction Models
(LRMs) follows the fully supervised route using large-scale datasets of
synthetic 3D assets or multi-view captures. Although these resources simplify
the training procedure, they are hard to scale up beyond the existing datasets
and they are not necessarily representative of the real distribution of object
shapes. To address these limitations, in this paper, we introduce Real3D, the
first LRM system that can be trained using single-view real-world images.
Real3D introduces a novel self-training framework that can benefit from both
the existing synthetic data and diverse single-view real images. We propose two
unsupervised losses that allow us to supervise LRMs at the pixel- and
semantic-level, even for training examples without ground-truth 3D or novel
views. To further improve performance and scale up the image data, we develop
an automatic data curation approach to collect high-quality examples from
in-the-wild images. Our experiments show that Real3D consistently outperforms
prior work in four diverse evaluation settings that include real and synthetic
data, as well as both in-domain and out-of-domain shapes. Code and model can be
found here: https://hwjiang1510.github.io/Real3D/