LRM : Modèle de Reconstruction à Grande Échelle pour la Conversion d'Image Unique en 3D
LRM: Large Reconstruction Model for Single Image to 3D
November 8, 2023
Auteurs: Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, Hao Tan
cs.AI
Résumé
Nous proposons le premier Large Reconstruction Model (LRM) capable de prédire un modèle 3D d'un objet à partir d'une seule image d'entrée en seulement 5 secondes. Contrairement à de nombreuses méthodes précédentes qui sont entraînées sur des ensembles de données à petite échelle tels que ShapeNet de manière spécifique à une catégorie, LRM adopte une architecture basée sur des transformers hautement scalable avec 500 millions de paramètres apprenables pour prédire directement un champ de radiance neuronale (NeRF) à partir de l'image d'entrée. Nous entraînons notre modèle de bout en bout sur des données multivues massives contenant environ 1 million d'objets, incluant à la fois des rendus synthétiques d'Objaverse et des captures réelles de MVImgNet. Cette combinaison d'un modèle à haute capacité et de données d'entraînement à grande échelle permet à notre modèle d'être hautement généralisable et de produire des reconstructions 3D de haute qualité à partir de diverses entrées de test, y compris des captures réelles en conditions réelles et des images provenant de modèles génératifs. Des démonstrations vidéo et des maillages 3D interactifs sont disponibles sur ce site web : https://yiconghong.me/LRM/.
English
We propose the first Large Reconstruction Model (LRM) that predicts the 3D
model of an object from a single input image within just 5 seconds. In contrast
to many previous methods that are trained on small-scale datasets such as
ShapeNet in a category-specific fashion, LRM adopts a highly scalable
transformer-based architecture with 500 million learnable parameters to
directly predict a neural radiance field (NeRF) from the input image. We train
our model in an end-to-end manner on massive multi-view data containing around
1 million objects, including both synthetic renderings from Objaverse and real
captures from MVImgNet. This combination of a high-capacity model and
large-scale training data empowers our model to be highly generalizable and
produce high-quality 3D reconstructions from various testing inputs including
real-world in-the-wild captures and images from generative models. Video demos
and interactable 3D meshes can be found on this website:
https://yiconghong.me/LRM/.