LRM-Cero: Entrenamiento de Modelos de Reconstrucción a Gran Escala con Datos Sintetizados
LRM-Zero: Training Large Reconstruction Models with Synthesized Data
June 13, 2024
Autores: Desai Xie, Sai Bi, Zhixin Shu, Kai Zhang, Zexiang Xu, Yi Zhou, Sören Pirk, Arie Kaufman, Xin Sun, Hao Tan
cs.AI
Resumen
Presentamos LRM-Zero, un Modelo de Reconstrucción a Gran Escala (LRM, por sus siglas en inglés) entrenado completamente con datos 3D sintetizados, logrando una reconstrucción 3D de alta calidad con pocas vistas. El núcleo de LRM-Zero es nuestro conjunto de datos 3D procedural, Zeroverse, que se sintetiza automáticamente a partir de formas primitivas simples con texturizado aleatorio y aumentaciones (por ejemplo, campos de altura, diferencias booleanas y estructuras alámbricas). A diferencia de conjuntos de datos 3D anteriores (por ejemplo, Objaverse), que a menudo son capturados o creados por humanos para aproximarse a datos 3D reales, Zeroverse ignora completamente la semántica global realista pero es rico en detalles geométricos y de textura complejos que son localmente similares o incluso más intrincados que los objetos reales. Demostramos que nuestro LRM-Zero, entrenado con nuestro Zeroverse completamente sintetizado, puede lograr una alta calidad visual en la reconstrucción de objetos del mundo real, compitiendo con modelos entrenados en Objaverse. También analizamos varias decisiones de diseño críticas de Zeroverse que contribuyen a la capacidad y estabilidad del entrenamiento de LRM-Zero. Nuestro trabajo demuestra que la reconstrucción 3D, una de las tareas centrales en visión 3D, puede abordarse potencialmente sin la semántica de objetos del mundo real. El código de síntesis procedural de Zeroverse y su visualización interactiva están disponibles en: https://desaixie.github.io/lrm-zero/.
English
We present LRM-Zero, a Large Reconstruction Model (LRM) trained entirely on
synthesized 3D data, achieving high-quality sparse-view 3D reconstruction. The
core of LRM-Zero is our procedural 3D dataset, Zeroverse, which is
automatically synthesized from simple primitive shapes with random texturing
and augmentations (e.g., height fields, boolean differences, and wireframes).
Unlike previous 3D datasets (e.g., Objaverse) which are often captured or
crafted by humans to approximate real 3D data, Zeroverse completely ignores
realistic global semantics but is rich in complex geometric and texture details
that are locally similar to or even more intricate than real objects. We
demonstrate that our LRM-Zero, trained with our fully synthesized Zeroverse,
can achieve high visual quality in the reconstruction of real-world objects,
competitive with models trained on Objaverse. We also analyze several critical
design choices of Zeroverse that contribute to LRM-Zero's capability and
training stability. Our work demonstrates that 3D reconstruction, one of the
core tasks in 3D vision, can potentially be addressed without the semantics of
real-world objects. The Zeroverse's procedural synthesis code and interactive
visualization are available at: https://desaixie.github.io/lrm-zero/.Summary
AI-Generated Summary