LRM-Zero : Entraînement de modèles de reconstruction à grande échelle avec des données synthétisées
LRM-Zero: Training Large Reconstruction Models with Synthesized Data
June 13, 2024
Auteurs: Desai Xie, Sai Bi, Zhixin Shu, Kai Zhang, Zexiang Xu, Yi Zhou, Sören Pirk, Arie Kaufman, Xin Sun, Hao Tan
cs.AI
Résumé
Nous présentons LRM-Zero, un modèle de reconstruction à grande échelle (Large Reconstruction Model, LRM) entièrement entraîné sur des données 3D synthétisées, atteignant une reconstruction 3D de haute qualité à partir de vues éparses. Le cœur de LRM-Zero repose sur notre ensemble de données 3D procédural, Zeroverse, qui est automatiquement généré à partir de formes primitives simples avec des textures aléatoires et des augmentations (par exemple, champs de hauteur, différences booléennes et fil de fer). Contrairement aux précédents ensembles de données 3D (par exemple, Objaverse) souvent capturés ou conçus par des humains pour approximer des données 3D réelles, Zeroverse ignore complètement la sémantique globale réaliste mais est riche en détails géométriques et texturaux complexes, localement similaires ou même plus élaborés que ceux des objets réels. Nous démontrons que notre LRM-Zero, entraîné avec notre Zeroverse entièrement synthétisé, peut atteindre une qualité visuelle élevée dans la reconstruction d'objets du monde réel, rivalisant avec les modèles entraînés sur Objaverse. Nous analysons également plusieurs choix de conception critiques de Zeroverse qui contribuent à la capacité et à la stabilité de l'entraînement de LRM-Zero. Notre travail montre que la reconstruction 3D, l'une des tâches fondamentales en vision 3D, peut potentiellement être abordée sans la sémantique des objets du monde réel. Le code de synthèse procédurale de Zeroverse et sa visualisation interactive sont disponibles à l'adresse suivante : https://desaixie.github.io/lrm-zero/.
English
We present LRM-Zero, a Large Reconstruction Model (LRM) trained entirely on
synthesized 3D data, achieving high-quality sparse-view 3D reconstruction. The
core of LRM-Zero is our procedural 3D dataset, Zeroverse, which is
automatically synthesized from simple primitive shapes with random texturing
and augmentations (e.g., height fields, boolean differences, and wireframes).
Unlike previous 3D datasets (e.g., Objaverse) which are often captured or
crafted by humans to approximate real 3D data, Zeroverse completely ignores
realistic global semantics but is rich in complex geometric and texture details
that are locally similar to or even more intricate than real objects. We
demonstrate that our LRM-Zero, trained with our fully synthesized Zeroverse,
can achieve high visual quality in the reconstruction of real-world objects,
competitive with models trained on Objaverse. We also analyze several critical
design choices of Zeroverse that contribute to LRM-Zero's capability and
training stability. Our work demonstrates that 3D reconstruction, one of the
core tasks in 3D vision, can potentially be addressed without the semantics of
real-world objects. The Zeroverse's procedural synthesis code and interactive
visualization are available at: https://desaixie.github.io/lrm-zero/.Summary
AI-Generated Summary