ChatPaper.aiChatPaper

MeshFormer: Hochwertige Gittergenerierung mit 3D-geführter Rekonstruktionsmodell

MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model

August 19, 2024
Autoren: Minghua Liu, Chong Zeng, Xinyue Wei, Ruoxi Shi, Linghao Chen, Chao Xu, Mengqi Zhang, Zhaoning Wang, Xiaoshuai Zhang, Isabella Liu, Hongzhi Wu, Hao Su
cs.AI

Zusammenfassung

Open-World 3D-Rekonstruktionsmodelle haben in letzter Zeit erhebliche Aufmerksamkeit erregt. Allerdings erfordern bestehende Methoden aufgrund unzureichender 3D-induktiver Voreingenommenheit in der Regel hohe Trainingskosten und haben Schwierigkeiten, hochwertige 3D-Gitter zu extrahieren. In dieser Arbeit stellen wir MeshFormer vor, ein dünn besetztes Rekonstruktionsmodell, das explizit die 3D-Nativstruktur, Eingabehinweise und Trainingsüberwachung nutzt. Anstelle einer Triplane-Repräsentation speichern wir Merkmale in 3D-dünnen Voxeln und kombinieren Transformer mit 3D-Faltungen, um eine explizite 3D-Struktur und eine projektive Voreingenommenheit zu nutzen. Neben dünn besetzten RGB-Eingaben fordern wir das Netzwerk auf, Eingaben entgegenzunehmen und entsprechende Normalenabbildungen zu erzeugen. Die Eingabe-Normalenabbildungen können durch 2D-Diffusionsmodelle vorhergesagt werden, was wesentlich zur Anleitung und Verfeinerung des Geometrielernens beiträgt. Darüber hinaus lernen wir durch die Kombination von Signed Distance Function (SDF)-Überwachung mit Oberflächenrendering direkt, hochwertige Gitter zu erzeugen, ohne komplexe mehrstufige Trainingsprozesse zu benötigen. Durch die Integration dieser expliziten 3D-Voreingenommenheiten kann MeshFormer effizient trainiert werden und hochwertige texturierte Gitter mit fein abgestuften geometrischen Details liefern. Es kann auch mit 2D-Diffusionsmodellen integriert werden, um schnelle Einzelbild-zu-3D- und Text-zu-3D-Aufgaben zu ermöglichen. Projektseite: https://meshformer3d.github.io
English
Open-world 3D reconstruction models have recently garnered significant attention. However, without sufficient 3D inductive bias, existing methods typically entail expensive training costs and struggle to extract high-quality 3D meshes. In this work, we introduce MeshFormer, a sparse-view reconstruction model that explicitly leverages 3D native structure, input guidance, and training supervision. Specifically, instead of using a triplane representation, we store features in 3D sparse voxels and combine transformers with 3D convolutions to leverage an explicit 3D structure and projective bias. In addition to sparse-view RGB input, we require the network to take input and generate corresponding normal maps. The input normal maps can be predicted by 2D diffusion models, significantly aiding in the guidance and refinement of the geometry's learning. Moreover, by combining Signed Distance Function (SDF) supervision with surface rendering, we directly learn to generate high-quality meshes without the need for complex multi-stage training processes. By incorporating these explicit 3D biases, MeshFormer can be trained efficiently and deliver high-quality textured meshes with fine-grained geometric details. It can also be integrated with 2D diffusion models to enable fast single-image-to-3D and text-to-3D tasks. Project page: https://meshformer3d.github.io

Summary

AI-Generated Summary

PDF363November 19, 2024