ChatPaper.aiChatPaper

MeshLRM: Modelo de Grande Escala para Reconstrução de Malhas de Alta Qualidade

MeshLRM: Large Reconstruction Model for High-Quality Mesh

April 18, 2024
Autores: Xinyue Wei, Kai Zhang, Sai Bi, Hao Tan, Fujun Luan, Valentin Deschaintre, Kalyan Sunkavalli, Hao Su, Zexiang Xu
cs.AI

Resumo

Propomos o MeshLRM, uma nova abordagem baseada em LRM que pode reconstruir uma malha de alta qualidade a partir de apenas quatro imagens de entrada em menos de um segundo. Diferente dos modelos anteriores de reconstrução em larga escala (LRMs) que se concentram na reconstrução baseada em NeRF, o MeshLRM incorpora a extração e renderização diferenciável de malhas dentro do framework LRM. Isso permite a reconstrução de malhas de ponta a ponta ao ajustar finamente um LRM NeRF pré-treinado com renderização de malhas. Além disso, aprimoramos a arquitetura do LRM simplificando vários designs complexos dos LRMs anteriores. A inicialização NeRF do MeshLRM é treinada sequencialmente com imagens de baixa e alta resolução; essa nova estratégia de treinamento de LRM permite uma convergência significativamente mais rápida e, consequentemente, resulta em melhor qualidade com menos computação. Nossa abordagem alcança a reconstrução de malhas de última geração a partir de entradas de visão esparsa e também permite muitas aplicações subsequentes, incluindo geração de texto-para-3D e imagem única-para-3D. Página do projeto: https://sarahweiii.github.io/meshlrm/
English
We propose MeshLRM, a novel LRM-based approach that can reconstruct a high-quality mesh from merely four input images in less than one second. Different from previous large reconstruction models (LRMs) that focus on NeRF-based reconstruction, MeshLRM incorporates differentiable mesh extraction and rendering within the LRM framework. This allows for end-to-end mesh reconstruction by fine-tuning a pre-trained NeRF LRM with mesh rendering. Moreover, we improve the LRM architecture by simplifying several complex designs in previous LRMs. MeshLRM's NeRF initialization is sequentially trained with low- and high-resolution images; this new LRM training strategy enables significantly faster convergence and thereby leads to better quality with less compute. Our approach achieves state-of-the-art mesh reconstruction from sparse-view inputs and also allows for many downstream applications, including text-to-3D and single-image-to-3D generation. Project page: https://sarahweiii.github.io/meshlrm/
PDF272December 15, 2024