Real3D: Масштабирование крупных моделей реконструкции с реальными изображениями.
Real3D: Scaling Up Large Reconstruction Models with Real-World Images
June 12, 2024
Авторы: Hanwen Jiang, Qixing Huang, Georgios Pavlakos
cs.AI
Аннотация
Стандартная стратегия обучения моделей больших реконструкций (LRM) по одному виду следует полностью надзорному пути, используя масштабные наборы данных синтетических 3D-объектов или многовидовые захваты. Хотя эти ресурсы упрощают процедуру обучения, их сложно масштабировать за пределы существующих наборов данных, и они не обязательно представляют реальное распределение форм объектов. Для решения этих ограничений в данной статье мы представляем Real3D, первую систему LRM, которая может быть обучена с использованием однокадровых изображений реального мира. Real3D вводит новую рамку самообучения, которая может извлечь выгоду как из существующих синтетических данных, так и разнообразных однокадровых реальных изображений. Мы предлагаем две ненадзорные потери, которые позволяют нам контролировать LRM на уровне пикселей и семантики, даже для обучающих примеров без истинных 3D или новых видов. Для дальнейшего улучшения производительности и масштабирования изображений мы разрабатываем подход к автоматической курированию данных для сбора высококачественных примеров из изображений "на лету". Наши эксперименты показывают, что Real3D последовательно превосходит предыдущие работы в четырех различных настройках оценки, которые включают реальные и синтетические данные, а также формы как внутри домена, так и вне домена. Код и модель можно найти здесь: https://hwjiang1510.github.io/Real3D/
English
The default strategy for training single-view Large Reconstruction Models
(LRMs) follows the fully supervised route using large-scale datasets of
synthetic 3D assets or multi-view captures. Although these resources simplify
the training procedure, they are hard to scale up beyond the existing datasets
and they are not necessarily representative of the real distribution of object
shapes. To address these limitations, in this paper, we introduce Real3D, the
first LRM system that can be trained using single-view real-world images.
Real3D introduces a novel self-training framework that can benefit from both
the existing synthetic data and diverse single-view real images. We propose two
unsupervised losses that allow us to supervise LRMs at the pixel- and
semantic-level, even for training examples without ground-truth 3D or novel
views. To further improve performance and scale up the image data, we develop
an automatic data curation approach to collect high-quality examples from
in-the-wild images. Our experiments show that Real3D consistently outperforms
prior work in four diverse evaluation settings that include real and synthetic
data, as well as both in-domain and out-of-domain shapes. Code and model can be
found here: https://hwjiang1510.github.io/Real3D/Summary
AI-Generated Summary