ChatPaper.aiChatPaper

LRM-Zero: Training großer Rekonstruktionsmodelle mit synthetischen Daten

LRM-Zero: Training Large Reconstruction Models with Synthesized Data

June 13, 2024
Autoren: Desai Xie, Sai Bi, Zhixin Shu, Kai Zhang, Zexiang Xu, Yi Zhou, Sören Pirk, Arie Kaufman, Xin Sun, Hao Tan
cs.AI

Zusammenfassung

Wir präsentieren LRM-Zero, ein Großes Rekonstruktionsmodell (LRM), das ausschließlich an synthetischen 3D-Daten trainiert wurde und eine hochwertige dünn besiedelte 3D-Rekonstruktion erreicht. Der Kern von LRM-Zero ist unser prozedurales 3D-Datenset, Zeroverse, das automatisch aus einfachen Grundformen mit zufälliger Texturierung und Erweiterungen (z. B. Höhenfelder, boolesche Differenzen und Drahtgitter) synthetisiert wird. Im Gegensatz zu früheren 3D-Datensets (z. B. Objaverse), die oft von Menschen erfasst oder erstellt werden, um reale 3D-Daten zu approximieren, ignoriert Zeroverse vollständig realistische globale Semantik, ist jedoch reich an komplexen geometrischen und texturierten Details, die lokal ähnlich oder sogar komplexer als reale Objekte sind. Wir zeigen, dass unser LRM-Zero, trainiert mit unserem vollständig synthetisierten Zeroverse, eine hohe visuelle Qualität bei der Rekonstruktion von realen Objekten erreichen kann, die mit Modellen, die auf Objaverse trainiert sind, wettbewerbsfähig ist. Wir analysieren auch mehrere kritische Designentscheidungen von Zeroverse, die zur Leistungsfähigkeit und Trainingsstabilität von LRM-Zero beitragen. Unsere Arbeit zeigt, dass die 3D-Rekonstruktion, eine der Kernaufgaben in der 3D-Vision, potenziell ohne die Semantik realer Objekte behandelt werden kann. Der prozedurale Synthesecode von Zeroverse und die interaktive Visualisierung sind verfügbar unter: https://desaixie.github.io/lrm-zero/.
English
We present LRM-Zero, a Large Reconstruction Model (LRM) trained entirely on synthesized 3D data, achieving high-quality sparse-view 3D reconstruction. The core of LRM-Zero is our procedural 3D dataset, Zeroverse, which is automatically synthesized from simple primitive shapes with random texturing and augmentations (e.g., height fields, boolean differences, and wireframes). Unlike previous 3D datasets (e.g., Objaverse) which are often captured or crafted by humans to approximate real 3D data, Zeroverse completely ignores realistic global semantics but is rich in complex geometric and texture details that are locally similar to or even more intricate than real objects. We demonstrate that our LRM-Zero, trained with our fully synthesized Zeroverse, can achieve high visual quality in the reconstruction of real-world objects, competitive with models trained on Objaverse. We also analyze several critical design choices of Zeroverse that contribute to LRM-Zero's capability and training stability. Our work demonstrates that 3D reconstruction, one of the core tasks in 3D vision, can potentially be addressed without the semantics of real-world objects. The Zeroverse's procedural synthesis code and interactive visualization are available at: https://desaixie.github.io/lrm-zero/.

Summary

AI-Generated Summary

PDF51December 6, 2024