ChatPaper.aiChatPaper

LRM: Groot Reconstructiemodel voor Enkele Afbeelding naar 3D

LRM: Large Reconstruction Model for Single Image to 3D

November 8, 2023
Auteurs: Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, Hao Tan
cs.AI

Samenvatting

Wij presenteren het eerste Large Reconstruction Model (LRM) dat een 3D-model van een object voorspelt vanuit een enkele invoerafbeelding in slechts 5 seconden. In tegenstelling tot veel eerdere methoden die getraind zijn op kleinschalige datasets zoals ShapeNet op een categorie-specifieke manier, maakt LRM gebruik van een zeer schaalbare transformer-gebaseerde architectuur met 500 miljoen leerbare parameters om direct een neural radiance field (NeRF) te voorspellen vanuit de invoerafbeelding. We trainen ons model end-to-end op massale multi-view data die ongeveer 1 miljoen objecten bevat, waaronder zowel synthetische renderings van Objaverse als echte opnames van MVImgNet. Deze combinatie van een model met hoge capaciteit en grootschalige trainingsdata stelt ons model in staat om zeer generaliseerbaar te zijn en hoogwaardige 3D-reconstructies te produceren vanuit verschillende testinvoeren, waaronder real-world in-the-wild opnames en afbeeldingen van generatieve modellen. Videodemo's en interactieve 3D-meshes zijn te vinden op deze website: https://yiconghong.me/LRM/.
English
We propose the first Large Reconstruction Model (LRM) that predicts the 3D model of an object from a single input image within just 5 seconds. In contrast to many previous methods that are trained on small-scale datasets such as ShapeNet in a category-specific fashion, LRM adopts a highly scalable transformer-based architecture with 500 million learnable parameters to directly predict a neural radiance field (NeRF) from the input image. We train our model in an end-to-end manner on massive multi-view data containing around 1 million objects, including both synthetic renderings from Objaverse and real captures from MVImgNet. This combination of a high-capacity model and large-scale training data empowers our model to be highly generalizable and produce high-quality 3D reconstructions from various testing inputs including real-world in-the-wild captures and images from generative models. Video demos and interactable 3D meshes can be found on this website: https://yiconghong.me/LRM/.
PDF522January 24, 2026