ChatPaper.aiChatPaper

LRM: Масштабная модель реконструкции для преобразования одного изображения в 3D

LRM: Large Reconstruction Model for Single Image to 3D

November 8, 2023
Авторы: Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, Hao Tan
cs.AI

Аннотация

Мы представляем первую Модель Крупномасштабной Реконструкции (Large Reconstruction Model, LRM), которая предсказывает 3D-модель объекта по одному входному изображению всего за 5 секунд. В отличие от многих предыдущих методов, которые обучаются на небольших наборах данных, таких как ShapeNet, в рамках конкретных категорий, LRM использует высокомасштабируемую архитектуру на основе трансформеров с 500 миллионами обучаемых параметров для прямого предсказания нейронного поля излучения (NeRF) из входного изображения. Мы обучаем нашу модель сквозным образом на огромных данных с множеством ракурсов, содержащих около 1 миллиона объектов, включая как синтетические рендеры из Objaverse, так и реальные съемки из MVImgNet. Сочетание модели высокой емкости и крупномасштабных данных обучения позволяет нашей модели быть высоко обобщаемой и создавать качественные 3D-реконструкции для различных тестовых входных данных, включая реальные съемки в естественных условиях и изображения, созданные генеративными моделями. Видеодемонстрации и интерактивные 3D-сетки можно найти на сайте: https://yiconghong.me/LRM/.
English
We propose the first Large Reconstruction Model (LRM) that predicts the 3D model of an object from a single input image within just 5 seconds. In contrast to many previous methods that are trained on small-scale datasets such as ShapeNet in a category-specific fashion, LRM adopts a highly scalable transformer-based architecture with 500 million learnable parameters to directly predict a neural radiance field (NeRF) from the input image. We train our model in an end-to-end manner on massive multi-view data containing around 1 million objects, including both synthetic renderings from Objaverse and real captures from MVImgNet. This combination of a high-capacity model and large-scale training data empowers our model to be highly generalizable and produce high-quality 3D reconstructions from various testing inputs including real-world in-the-wild captures and images from generative models. Video demos and interactable 3D meshes can be found on this website: https://yiconghong.me/LRM/.
PDF522December 15, 2024