ChatPaper.aiChatPaper

MeshLRM: Groot Reconstructiemodel voor Hoogwaardige Mesh

MeshLRM: Large Reconstruction Model for High-Quality Mesh

April 18, 2024
Auteurs: Xinyue Wei, Kai Zhang, Sai Bi, Hao Tan, Fujun Luan, Valentin Deschaintre, Kalyan Sunkavalli, Hao Su, Zexiang Xu
cs.AI

Samenvatting

Wij stellen MeshLRM voor, een nieuwe LRM-gebaseerde aanpak die in staat is om een hoogwaardig mesh te reconstrueren vanuit slechts vier invoerbeelden in minder dan één seconde. In tegenstelling tot eerdere grote reconstructiemodellen (LRMs) die zich richten op NeRF-gebaseerde reconstructie, integreert MeshLRM differentieerbare mesh-extractie en -rendering binnen het LRM-framework. Dit maakt end-to-end mesh-reconstructie mogelijk door een vooraf getrainde NeRF LRM te finetunen met mesh-rendering. Bovendien verbeteren we de LRM-architectuur door verschillende complexe ontwerpen uit eerdere LRMs te vereenvoudigen. De NeRF-initialisatie van MeshLRM wordt sequentieel getraind met afbeeldingen van lage en hoge resolutie; deze nieuwe LRM-trainingsstrategie maakt een aanzienlijk snellere convergentie mogelijk en leidt daardoor tot betere kwaliteit met minder rekenkracht. Onze aanpak bereikt state-of-the-art mesh-reconstructie vanuit sparse-view invoer en maakt ook veel downstream toepassingen mogelijk, waaronder tekst-naar-3D en enkele-afbeelding-naar-3D generatie. Projectpagina: https://sarahweiii.github.io/meshlrm/
English
We propose MeshLRM, a novel LRM-based approach that can reconstruct a high-quality mesh from merely four input images in less than one second. Different from previous large reconstruction models (LRMs) that focus on NeRF-based reconstruction, MeshLRM incorporates differentiable mesh extraction and rendering within the LRM framework. This allows for end-to-end mesh reconstruction by fine-tuning a pre-trained NeRF LRM with mesh rendering. Moreover, we improve the LRM architecture by simplifying several complex designs in previous LRMs. MeshLRM's NeRF initialization is sequentially trained with low- and high-resolution images; this new LRM training strategy enables significantly faster convergence and thereby leads to better quality with less compute. Our approach achieves state-of-the-art mesh reconstruction from sparse-view inputs and also allows for many downstream applications, including text-to-3D and single-image-to-3D generation. Project page: https://sarahweiii.github.io/meshlrm/
PDF272December 15, 2024