LRM: Modello di Ricostruzione di Grande Scala per la Generazione di 3D da Singola Immagine
LRM: Large Reconstruction Model for Single Image to 3D
November 8, 2023
Autori: Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, Hao Tan
cs.AI
Abstract
Proponiamo il primo Large Reconstruction Model (LRM) in grado di prevedere il modello 3D di un oggetto a partire da una singola immagine in soli 5 secondi. A differenza di molti metodi precedenti, che vengono addestrati su dataset di piccole dimensioni come ShapeNet in modo specifico per categoria, LRM adotta un'architettura altamente scalabile basata su transformer con 500 milioni di parametri apprendibili per prevedere direttamente un campo di radianza neurale (NeRF) dall'immagine di input. Addestriamo il nostro modello in modo end-to-end su dati multiview di grandi dimensioni contenenti circa 1 milione di oggetti, inclusi rendering sintetici da Objaverse e acquisizioni reali da MVImgNet. Questa combinazione di un modello ad alta capacità e dati di addestramento su larga scala consente al nostro modello di essere altamente generalizzabile e di produrre ricostruzioni 3D di alta qualità da vari input di test, tra cui acquisizioni reali in contesti non controllati e immagini provenienti da modelli generativi. Demo video e mesh 3D interattive sono disponibili su questo sito: https://yiconghong.me/LRM/.
English
We propose the first Large Reconstruction Model (LRM) that predicts the 3D
model of an object from a single input image within just 5 seconds. In contrast
to many previous methods that are trained on small-scale datasets such as
ShapeNet in a category-specific fashion, LRM adopts a highly scalable
transformer-based architecture with 500 million learnable parameters to
directly predict a neural radiance field (NeRF) from the input image. We train
our model in an end-to-end manner on massive multi-view data containing around
1 million objects, including both synthetic renderings from Objaverse and real
captures from MVImgNet. This combination of a high-capacity model and
large-scale training data empowers our model to be highly generalizable and
produce high-quality 3D reconstructions from various testing inputs including
real-world in-the-wild captures and images from generative models. Video demos
and interactable 3D meshes can be found on this website:
https://yiconghong.me/LRM/.