ChatPaper.aiChatPaper

LRM: Modelo de Grande Reconstrução para Imagem Única em 3D

LRM: Large Reconstruction Model for Single Image to 3D

November 8, 2023
Autores: Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, Hao Tan
cs.AI

Resumo

Propomos o primeiro Modelo de Reconstrução em Grande Escala (LRM) que prevê o modelo 3D de um objeto a partir de uma única imagem de entrada em apenas 5 segundos. Em contraste com muitos métodos anteriores que são treinados em conjuntos de dados de pequena escala, como o ShapeNet, de forma específica por categoria, o LRM adota uma arquitetura altamente escalável baseada em transformers com 500 milhões de parâmetros aprendíveis para prever diretamente um campo de radiação neural (NeRF) a partir da imagem de entrada. Treinamos nosso modelo de ponta a ponta em dados multiview massivos contendo cerca de 1 milhão de objetos, incluindo renderizações sintéticas do Objaverse e capturas reais do MVImgNet. Essa combinação de um modelo de alta capacidade e dados de treinamento em grande escala capacita nosso modelo a ser altamente generalizável e produzir reconstruções 3D de alta qualidade a partir de diversas entradas de teste, incluindo capturas reais em ambientes não controlados e imagens de modelos generativos. Demonstrações em vídeo e malhas 3D interativas podem ser encontradas neste site: https://yiconghong.me/LRM/.
English
We propose the first Large Reconstruction Model (LRM) that predicts the 3D model of an object from a single input image within just 5 seconds. In contrast to many previous methods that are trained on small-scale datasets such as ShapeNet in a category-specific fashion, LRM adopts a highly scalable transformer-based architecture with 500 million learnable parameters to directly predict a neural radiance field (NeRF) from the input image. We train our model in an end-to-end manner on massive multi-view data containing around 1 million objects, including both synthetic renderings from Objaverse and real captures from MVImgNet. This combination of a high-capacity model and large-scale training data empowers our model to be highly generalizable and produce high-quality 3D reconstructions from various testing inputs including real-world in-the-wild captures and images from generative models. Video demos and interactable 3D meshes can be found on this website: https://yiconghong.me/LRM/.
PDF522January 24, 2026