ChatPaper.aiChatPaper

LRM: Modelo de Reconstrucción a Gran Escala para la Generación de 3D a partir de una Imagen Única

LRM: Large Reconstruction Model for Single Image to 3D

November 8, 2023
Autores: Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, Hao Tan
cs.AI

Resumen

Proponemos el primer Modelo de Reconstrucción a Gran Escala (LRM, por sus siglas en inglés) que predice el modelo 3D de un objeto a partir de una única imagen de entrada en tan solo 5 segundos. A diferencia de muchos métodos anteriores que se entrenan en conjuntos de datos de pequeña escala, como ShapeNet, de manera específica por categoría, LRM adopta una arquitectura altamente escalable basada en transformadores con 500 millones de parámetros entrenables para predecir directamente un campo de radiancia neural (NeRF) a partir de la imagen de entrada. Entrenamos nuestro modelo de extremo a extremo en datos multivista masivos que contienen alrededor de 1 millón de objetos, incluyendo tanto renderizados sintéticos de Objaverse como capturas reales de MVImgNet. Esta combinación de un modelo de alta capacidad y datos de entrenamiento a gran escala permite que nuestro modelo sea altamente generalizable y produzca reconstrucciones 3D de alta calidad a partir de diversas entradas de prueba, incluyendo capturas reales en entornos no controlados e imágenes generadas por modelos generativos. Demostraciones en video y mallas 3D interactivas pueden encontrarse en este sitio web: https://yiconghong.me/LRM/.
English
We propose the first Large Reconstruction Model (LRM) that predicts the 3D model of an object from a single input image within just 5 seconds. In contrast to many previous methods that are trained on small-scale datasets such as ShapeNet in a category-specific fashion, LRM adopts a highly scalable transformer-based architecture with 500 million learnable parameters to directly predict a neural radiance field (NeRF) from the input image. We train our model in an end-to-end manner on massive multi-view data containing around 1 million objects, including both synthetic renderings from Objaverse and real captures from MVImgNet. This combination of a high-capacity model and large-scale training data empowers our model to be highly generalizable and produce high-quality 3D reconstructions from various testing inputs including real-world in-the-wild captures and images from generative models. Video demos and interactable 3D meshes can be found on this website: https://yiconghong.me/LRM/.
PDF522December 15, 2024