LRM-Zero: Treinando Modelos de Reconstrução em Grande Escala com Dados Sintetizados
LRM-Zero: Training Large Reconstruction Models with Synthesized Data
June 13, 2024
Autores: Desai Xie, Sai Bi, Zhixin Shu, Kai Zhang, Zexiang Xu, Yi Zhou, Sören Pirk, Arie Kaufman, Xin Sun, Hao Tan
cs.AI
Resumo
Apresentamos o LRM-Zero, um Modelo de Reconstrução em Grande Escala (LRM) treinado inteiramente com dados 3D sintetizados, alcançando reconstrução 3D de alta qualidade a partir de poucas visualizações. O núcleo do LRM-Zero é nosso conjunto de dados 3D procedural, Zeroverse, que é sintetizado automaticamente a partir de formas primitivas simples com texturização e aumentos aleatórios (por exemplo, campos de altura, diferenças booleanas e wireframes). Diferente de conjuntos de dados 3D anteriores (por exemplo, Objaverse), que são frequentemente capturados ou criados por humanos para aproximar dados 3D reais, o Zeroverse ignora completamente a semântica global realista, mas é rico em detalhes geométricos e texturais complexos que são localmente semelhantes ou até mais intrincados do que objetos reais. Demonstramos que nosso LRM-Zero, treinado com o Zeroverse totalmente sintetizado, pode alcançar alta qualidade visual na reconstrução de objetos do mundo real, competitivo com modelos treinados no Objaverse. Também analisamos várias escolhas críticas de design do Zeroverse que contribuem para a capacidade e estabilidade de treinamento do LRM-Zero. Nosso trabalho demonstra que a reconstrução 3D, uma das tarefas centrais na visão 3D, pode potencialmente ser abordada sem a semântica de objetos do mundo real. O código de síntese procedural do Zeroverse e a visualização interativa estão disponíveis em: https://desaixie.github.io/lrm-zero/.
English
We present LRM-Zero, a Large Reconstruction Model (LRM) trained entirely on
synthesized 3D data, achieving high-quality sparse-view 3D reconstruction. The
core of LRM-Zero is our procedural 3D dataset, Zeroverse, which is
automatically synthesized from simple primitive shapes with random texturing
and augmentations (e.g., height fields, boolean differences, and wireframes).
Unlike previous 3D datasets (e.g., Objaverse) which are often captured or
crafted by humans to approximate real 3D data, Zeroverse completely ignores
realistic global semantics but is rich in complex geometric and texture details
that are locally similar to or even more intricate than real objects. We
demonstrate that our LRM-Zero, trained with our fully synthesized Zeroverse,
can achieve high visual quality in the reconstruction of real-world objects,
competitive with models trained on Objaverse. We also analyze several critical
design choices of Zeroverse that contribute to LRM-Zero's capability and
training stability. Our work demonstrates that 3D reconstruction, one of the
core tasks in 3D vision, can potentially be addressed without the semantics of
real-world objects. The Zeroverse's procedural synthesis code and interactive
visualization are available at: https://desaixie.github.io/lrm-zero/.