iLRM: Um Modelo Iterativo de Reconstrução 3D em Grande Escala
iLRM: An Iterative Large 3D Reconstruction Model
July 31, 2025
Autores: Gyeongjin Kang, Seungtae Nam, Xiangyu Sun, Sameh Khamis, Abdelrahman Mohamed, Eunbyung Park
cs.AI
Resumo
A modelagem feed-forward 3D surgiu como uma abordagem promissora para reconstrução 3D rápida e de alta qualidade. Em particular, a geração direta de representações 3D explícitas, como o splatting de Gaussianas 3D, tem atraído atenção significativa devido à sua renderização rápida e de alta qualidade, além de suas diversas aplicações. No entanto, muitos métodos state-of-the-art, baseados principalmente em arquiteturas de transformers, sofrem com sérios problemas de escalabilidade, pois dependem de atenção completa entre tokens de imagem de múltiplas vistas de entrada, resultando em custos computacionais proibitivos à medida que o número de vistas ou a resolução da imagem aumenta. Visando uma reconstrução 3D feed-forward escalável e eficiente, introduzimos um Modelo Iterativo de Reconstrução 3D em Grande Escala (iLRM) que gera representações de Gaussianas 3D por meio de um mecanismo de refinamento iterativo, guiado por três princípios fundamentais: (1) desacoplar a representação da cena das imagens de entrada para permitir representações 3D compactas; (2) decompor interações multi-visuais de atenção completa em um esquema de atenção em dois estágios para reduzir custos computacionais; e (3) injetar informações de alta resolução em cada camada para alcançar reconstrução de alta fidelidade. Resultados experimentais em conjuntos de dados amplamente utilizados, como RE10K e DL3DV, demonstram que o iLRM supera os métodos existentes tanto em qualidade de reconstrução quanto em velocidade. Notavelmente, o iLRM exibe escalabilidade superior, entregando qualidade de reconstrução significativamente maior sob custo computacional comparável, ao aproveitar de forma eficiente um número maior de vistas de entrada.
English
Feed-forward 3D modeling has emerged as a promising approach for rapid and
high-quality 3D reconstruction. In particular, directly generating explicit 3D
representations, such as 3D Gaussian splatting, has attracted significant
attention due to its fast and high-quality rendering, as well as numerous
applications. However, many state-of-the-art methods, primarily based on
transformer architectures, suffer from severe scalability issues because they
rely on full attention across image tokens from multiple input views, resulting
in prohibitive computational costs as the number of views or image resolution
increases. Toward a scalable and efficient feed-forward 3D reconstruction, we
introduce an iterative Large 3D Reconstruction Model (iLRM) that generates 3D
Gaussian representations through an iterative refinement mechanism, guided by
three core principles: (1) decoupling the scene representation from input-view
images to enable compact 3D representations; (2) decomposing fully-attentional
multi-view interactions into a two-stage attention scheme to reduce
computational costs; and (3) injecting high-resolution information at every
layer to achieve high-fidelity reconstruction. Experimental results on widely
used datasets, such as RE10K and DL3DV, demonstrate that iLRM outperforms
existing methods in both reconstruction quality and speed. Notably, iLRM
exhibits superior scalability, delivering significantly higher reconstruction
quality under comparable computational cost by efficiently leveraging a larger
number of input views.