ChatPaper.aiChatPaper

LRM: Großes Rekonstruktionsmodell für die Umwandlung von Einzelbildern in 3D

LRM: Large Reconstruction Model for Single Image to 3D

November 8, 2023
Autoren: Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, Hao Tan
cs.AI

Zusammenfassung

Wir präsentieren das erste Large Reconstruction Model (LRM), das das 3D-Modell eines Objekts aus einem einzelnen Eingabebild in nur 5 Sekunden vorhersagt. Im Gegensatz zu vielen früheren Methoden, die auf kleinen Datensätzen wie ShapeNet in einer kategoriespezifischen Weise trainiert werden, verwendet LRM eine hochskalierbare Transformer-basierte Architektur mit 500 Millionen trainierbaren Parametern, um direkt ein Neural Radiance Field (NeRF) aus dem Eingabebild zu erzeugen. Wir trainieren unser Modell end-to-end auf massiven Multi-View-Daten, die etwa 1 Million Objekte umfassen, einschließlich synthetischer Renderings aus Objaverse und realer Aufnahmen aus MVImgNet. Diese Kombination aus einem hochkapazitiven Modell und großvolumigen Trainingsdaten ermöglicht es unserem Modell, hochgradig generalisierbar zu sein und qualitativ hochwertige 3D-Rekonstruktionen aus verschiedenen Testeingaben zu erzeugen, darunter reale Aufnahmen aus der freien Wildbahn und Bilder von generativen Modellen. Video-Demonstrationen und interaktive 3D-Meshes finden Sie auf dieser Website: https://yiconghong.me/LRM/.
English
We propose the first Large Reconstruction Model (LRM) that predicts the 3D model of an object from a single input image within just 5 seconds. In contrast to many previous methods that are trained on small-scale datasets such as ShapeNet in a category-specific fashion, LRM adopts a highly scalable transformer-based architecture with 500 million learnable parameters to directly predict a neural radiance field (NeRF) from the input image. We train our model in an end-to-end manner on massive multi-view data containing around 1 million objects, including both synthetic renderings from Objaverse and real captures from MVImgNet. This combination of a high-capacity model and large-scale training data empowers our model to be highly generalizable and produce high-quality 3D reconstructions from various testing inputs including real-world in-the-wild captures and images from generative models. Video demos and interactable 3D meshes can be found on this website: https://yiconghong.me/LRM/.
PDF522December 15, 2024