ChatPaper.aiChatPaper

LRM: Modello di Ricostruzione di Grande Scala per la Generazione di 3D da Singola Immagine

LRM: Large Reconstruction Model for Single Image to 3D

November 8, 2023
Autori: Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, Hao Tan
cs.AI

Abstract

Proponiamo il primo Large Reconstruction Model (LRM) in grado di prevedere il modello 3D di un oggetto a partire da una singola immagine in soli 5 secondi. A differenza di molti metodi precedenti, che vengono addestrati su dataset di piccole dimensioni come ShapeNet in modo specifico per categoria, LRM adotta un'architettura altamente scalabile basata su transformer con 500 milioni di parametri apprendibili per prevedere direttamente un campo di radianza neurale (NeRF) dall'immagine di input. Addestriamo il nostro modello in modo end-to-end su dati multiview di grandi dimensioni contenenti circa 1 milione di oggetti, inclusi rendering sintetici da Objaverse e acquisizioni reali da MVImgNet. Questa combinazione di un modello ad alta capacità e dati di addestramento su larga scala consente al nostro modello di essere altamente generalizzabile e di produrre ricostruzioni 3D di alta qualità da vari input di test, tra cui acquisizioni reali in contesti non controllati e immagini provenienti da modelli generativi. Demo video e mesh 3D interattive sono disponibili su questo sito: https://yiconghong.me/LRM/.
English
We propose the first Large Reconstruction Model (LRM) that predicts the 3D model of an object from a single input image within just 5 seconds. In contrast to many previous methods that are trained on small-scale datasets such as ShapeNet in a category-specific fashion, LRM adopts a highly scalable transformer-based architecture with 500 million learnable parameters to directly predict a neural radiance field (NeRF) from the input image. We train our model in an end-to-end manner on massive multi-view data containing around 1 million objects, including both synthetic renderings from Objaverse and real captures from MVImgNet. This combination of a high-capacity model and large-scale training data empowers our model to be highly generalizable and produce high-quality 3D reconstructions from various testing inputs including real-world in-the-wild captures and images from generative models. Video demos and interactable 3D meshes can be found on this website: https://yiconghong.me/LRM/.
PDF522January 24, 2026