LRM-Zero: Addestramento di Modelli di Ricostruzione su Grande Scala con Dati Sintetizzati
LRM-Zero: Training Large Reconstruction Models with Synthesized Data
June 13, 2024
Autori: Desai Xie, Sai Bi, Zhixin Shu, Kai Zhang, Zexiang Xu, Yi Zhou, Sören Pirk, Arie Kaufman, Xin Sun, Hao Tan
cs.AI
Abstract
Presentiamo LRM-Zero, un Large Reconstruction Model (LRM) addestrato interamente su dati 3D sintetizzati, che raggiunge una ricostruzione 3D di alta qualità a partire da poche viste. Il cuore di LRM-Zero è il nostro dataset 3D procedurale, Zeroverse, generato automaticamente a partire da forme primitive semplici con texture casuali e aumentazioni (ad esempio, campi di altezza, differenze booleane e wireframe). A differenza dei precedenti dataset 3D (ad esempio, Objaverse), spesso acquisiti o creati manualmente per approssimare dati 3D reali, Zeroverse ignora completamente la semantica globale realistica ma è ricco di dettagli geometrici e texture complessi che sono localmente simili o addirittura più intricati rispetto agli oggetti reali. Dimostriamo che il nostro LRM-Zero, addestrato con il nostro Zeroverse completamente sintetizzato, può raggiungere un’elevata qualità visiva nella ricostruzione di oggetti del mondo reale, competitiva rispetto ai modelli addestrati su Objaverse. Analizziamo inoltre diverse scelte progettuali critiche di Zeroverse che contribuiscono alle capacità e alla stabilità dell’addestramento di LRM-Zero. Il nostro lavoro dimostra che la ricostruzione 3D, uno dei compiti fondamentali nella visione 3D, può potenzialmente essere affrontata senza la semantica degli oggetti del mondo reale. Il codice di sintesi procedurale di Zeroverse e la visualizzazione interattiva sono disponibili all’indirizzo: https://desaixie.github.io/lrm-zero/.
English
We present LRM-Zero, a Large Reconstruction Model (LRM) trained entirely on
synthesized 3D data, achieving high-quality sparse-view 3D reconstruction. The
core of LRM-Zero is our procedural 3D dataset, Zeroverse, which is
automatically synthesized from simple primitive shapes with random texturing
and augmentations (e.g., height fields, boolean differences, and wireframes).
Unlike previous 3D datasets (e.g., Objaverse) which are often captured or
crafted by humans to approximate real 3D data, Zeroverse completely ignores
realistic global semantics but is rich in complex geometric and texture details
that are locally similar to or even more intricate than real objects. We
demonstrate that our LRM-Zero, trained with our fully synthesized Zeroverse,
can achieve high visual quality in the reconstruction of real-world objects,
competitive with models trained on Objaverse. We also analyze several critical
design choices of Zeroverse that contribute to LRM-Zero's capability and
training stability. Our work demonstrates that 3D reconstruction, one of the
core tasks in 3D vision, can potentially be addressed without the semantics of
real-world objects. The Zeroverse's procedural synthesis code and interactive
visualization are available at: https://desaixie.github.io/lrm-zero/.