LRM-Zero: Training großer Rekonstruktionsmodelle mit synthetischen Daten
LRM-Zero: Training Large Reconstruction Models with Synthesized Data
June 13, 2024
Autoren: Desai Xie, Sai Bi, Zhixin Shu, Kai Zhang, Zexiang Xu, Yi Zhou, Sören Pirk, Arie Kaufman, Xin Sun, Hao Tan
cs.AI
Zusammenfassung
Wir präsentieren LRM-Zero, ein Großes Rekonstruktionsmodell (LRM), das ausschließlich an synthetischen 3D-Daten trainiert wurde und eine hochwertige dünn besiedelte 3D-Rekonstruktion erreicht. Der Kern von LRM-Zero ist unser prozedurales 3D-Datenset, Zeroverse, das automatisch aus einfachen Grundformen mit zufälliger Texturierung und Erweiterungen (z. B. Höhenfelder, boolesche Differenzen und Drahtgitter) synthetisiert wird. Im Gegensatz zu früheren 3D-Datensets (z. B. Objaverse), die oft von Menschen erfasst oder erstellt werden, um reale 3D-Daten zu approximieren, ignoriert Zeroverse vollständig realistische globale Semantik, ist jedoch reich an komplexen geometrischen und texturierten Details, die lokal ähnlich oder sogar komplexer als reale Objekte sind. Wir zeigen, dass unser LRM-Zero, trainiert mit unserem vollständig synthetisierten Zeroverse, eine hohe visuelle Qualität bei der Rekonstruktion von realen Objekten erreichen kann, die mit Modellen, die auf Objaverse trainiert sind, wettbewerbsfähig ist. Wir analysieren auch mehrere kritische Designentscheidungen von Zeroverse, die zur Leistungsfähigkeit und Trainingsstabilität von LRM-Zero beitragen. Unsere Arbeit zeigt, dass die 3D-Rekonstruktion, eine der Kernaufgaben in der 3D-Vision, potenziell ohne die Semantik realer Objekte behandelt werden kann. Der prozedurale Synthesecode von Zeroverse und die interaktive Visualisierung sind verfügbar unter: https://desaixie.github.io/lrm-zero/.
English
We present LRM-Zero, a Large Reconstruction Model (LRM) trained entirely on
synthesized 3D data, achieving high-quality sparse-view 3D reconstruction. The
core of LRM-Zero is our procedural 3D dataset, Zeroverse, which is
automatically synthesized from simple primitive shapes with random texturing
and augmentations (e.g., height fields, boolean differences, and wireframes).
Unlike previous 3D datasets (e.g., Objaverse) which are often captured or
crafted by humans to approximate real 3D data, Zeroverse completely ignores
realistic global semantics but is rich in complex geometric and texture details
that are locally similar to or even more intricate than real objects. We
demonstrate that our LRM-Zero, trained with our fully synthesized Zeroverse,
can achieve high visual quality in the reconstruction of real-world objects,
competitive with models trained on Objaverse. We also analyze several critical
design choices of Zeroverse that contribute to LRM-Zero's capability and
training stability. Our work demonstrates that 3D reconstruction, one of the
core tasks in 3D vision, can potentially be addressed without the semantics of
real-world objects. The Zeroverse's procedural synthesis code and interactive
visualization are available at: https://desaixie.github.io/lrm-zero/.Summary
AI-Generated Summary