MeshLRM: Modello di Ricostruzione su Grande Scala per Mesh di Alta Qualità
MeshLRM: Large Reconstruction Model for High-Quality Mesh
April 18, 2024
Autori: Xinyue Wei, Kai Zhang, Sai Bi, Hao Tan, Fujun Luan, Valentin Deschaintre, Kalyan Sunkavalli, Hao Su, Zexiang Xu
cs.AI
Abstract
Proponiamo MeshLRM, un nuovo approccio basato su LRM in grado di ricostruire una mesh di alta qualità a partire da soli quattro immagini di input in meno di un secondo. A differenza dei precedenti modelli di ricostruzione su larga scala (LRM) focalizzati sulla ricostruzione basata su NeRF, MeshLRM integra l'estrazione e il rendering differenziabili di mesh all'interno del framework LRM. Ciò consente una ricostruzione end-to-end della mesh attraverso il fine-tuning di un LRM NeRF pre-addestrato con il rendering di mesh. Inoltre, miglioriamo l'architettura LRM semplificando diversi design complessi presenti nei precedenti LRM. L'inizializzazione NeRF di MeshLRM viene addestrata sequenzialmente con immagini a bassa e alta risoluzione; questa nuova strategia di addestramento LRM permette una convergenza significativamente più rapida, portando a una migliore qualità con meno risorse computazionali. Il nostro approccio raggiunge risultati all'avanguardia nella ricostruzione di mesh da input a vista sparsa e consente anche molte applicazioni downstream, tra cui la generazione da testo a 3D e da singola immagine a 3D. Pagina del progetto: https://sarahweiii.github.io/meshlrm/
English
We propose MeshLRM, a novel LRM-based approach that can reconstruct a
high-quality mesh from merely four input images in less than one second.
Different from previous large reconstruction models (LRMs) that focus on
NeRF-based reconstruction, MeshLRM incorporates differentiable mesh extraction
and rendering within the LRM framework. This allows for end-to-end mesh
reconstruction by fine-tuning a pre-trained NeRF LRM with mesh rendering.
Moreover, we improve the LRM architecture by simplifying several complex
designs in previous LRMs. MeshLRM's NeRF initialization is sequentially trained
with low- and high-resolution images; this new LRM training strategy enables
significantly faster convergence and thereby leads to better quality with less
compute. Our approach achieves state-of-the-art mesh reconstruction from
sparse-view inputs and also allows for many downstream applications, including
text-to-3D and single-image-to-3D generation. Project page:
https://sarahweiii.github.io/meshlrm/