ChatPaper.aiChatPaper

MeshLRM: Großes Rekonstruktionsmodell für hochwertige Mesh

MeshLRM: Large Reconstruction Model for High-Quality Mesh

April 18, 2024
Autoren: Xinyue Wei, Kai Zhang, Sai Bi, Hao Tan, Fujun Luan, Valentin Deschaintre, Kalyan Sunkavalli, Hao Su, Zexiang Xu
cs.AI

Zusammenfassung

Wir schlagen MeshLRM vor, einen neuartigen auf LRM basierenden Ansatz, der in weniger als einer Sekunde ein hochwertiges Netz aus lediglich vier Eingabebildern rekonstruieren kann. Im Gegensatz zu früheren großen Rekonstruktionsmodellen (LRMs), die sich auf NeRF-basierte Rekonstruktion konzentrieren, integriert MeshLRM differenzierbare Netzextraktion und Rendering in das LRM-Framework. Dies ermöglicht eine End-to-End-Netzrekonstruktion durch Feinabstimmung eines vorab trainierten NeRF-LRMs mit Netzrendering. Darüber hinaus verbessern wir die LRM-Architektur, indem wir mehrere komplexe Designs in früheren LRMs vereinfachen. Die NeRF-Initialisierung von MeshLRM wird sequenziell mit Niedrig- und Hochauflösungsbildern trainiert; diese neue LRM-Trainingsstrategie ermöglicht eine deutlich schnellere Konvergenz und führt somit zu besserer Qualität bei geringerem Rechenaufwand. Unser Ansatz erreicht eine hochmoderne Netzrekonstruktion aus spärlichen Ansichtseingaben und ermöglicht auch viele nachgelagerte Anwendungen, einschließlich Text-zu-3D und Einzelbild-zu-3D-Generierung. Projektseite: https://sarahweiii.github.io/meshlrm/
English
We propose MeshLRM, a novel LRM-based approach that can reconstruct a high-quality mesh from merely four input images in less than one second. Different from previous large reconstruction models (LRMs) that focus on NeRF-based reconstruction, MeshLRM incorporates differentiable mesh extraction and rendering within the LRM framework. This allows for end-to-end mesh reconstruction by fine-tuning a pre-trained NeRF LRM with mesh rendering. Moreover, we improve the LRM architecture by simplifying several complex designs in previous LRMs. MeshLRM's NeRF initialization is sequentially trained with low- and high-resolution images; this new LRM training strategy enables significantly faster convergence and thereby leads to better quality with less compute. Our approach achieves state-of-the-art mesh reconstruction from sparse-view inputs and also allows for many downstream applications, including text-to-3D and single-image-to-3D generation. Project page: https://sarahweiii.github.io/meshlrm/

Summary

AI-Generated Summary

PDF282December 15, 2024