LRM: Großes Rekonstruktionsmodell für die Umwandlung von Einzelbildern in 3D
LRM: Large Reconstruction Model for Single Image to 3D
November 8, 2023
Autoren: Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, Hao Tan
cs.AI
Zusammenfassung
Wir präsentieren das erste Large Reconstruction Model (LRM), das das 3D-Modell eines Objekts aus einem einzelnen Eingabebild in nur 5 Sekunden vorhersagt. Im Gegensatz zu vielen früheren Methoden, die auf kleinen Datensätzen wie ShapeNet in einer kategoriespezifischen Weise trainiert werden, verwendet LRM eine hochskalierbare Transformer-basierte Architektur mit 500 Millionen trainierbaren Parametern, um direkt ein Neural Radiance Field (NeRF) aus dem Eingabebild zu erzeugen. Wir trainieren unser Modell end-to-end auf massiven Multi-View-Daten, die etwa 1 Million Objekte umfassen, einschließlich synthetischer Renderings aus Objaverse und realer Aufnahmen aus MVImgNet. Diese Kombination aus einem hochkapazitiven Modell und großvolumigen Trainingsdaten ermöglicht es unserem Modell, hochgradig generalisierbar zu sein und qualitativ hochwertige 3D-Rekonstruktionen aus verschiedenen Testeingaben zu erzeugen, darunter reale Aufnahmen aus der freien Wildbahn und Bilder von generativen Modellen. Video-Demonstrationen und interaktive 3D-Meshes finden Sie auf dieser Website: https://yiconghong.me/LRM/.
English
We propose the first Large Reconstruction Model (LRM) that predicts the 3D
model of an object from a single input image within just 5 seconds. In contrast
to many previous methods that are trained on small-scale datasets such as
ShapeNet in a category-specific fashion, LRM adopts a highly scalable
transformer-based architecture with 500 million learnable parameters to
directly predict a neural radiance field (NeRF) from the input image. We train
our model in an end-to-end manner on massive multi-view data containing around
1 million objects, including both synthetic renderings from Objaverse and real
captures from MVImgNet. This combination of a high-capacity model and
large-scale training data empowers our model to be highly generalizable and
produce high-quality 3D reconstructions from various testing inputs including
real-world in-the-wild captures and images from generative models. Video demos
and interactable 3D meshes can be found on this website:
https://yiconghong.me/LRM/.