iLRM: Un Modello Iterativo per la Ricostruzione 3D su Grande Scala
iLRM: An Iterative Large 3D Reconstruction Model
July 31, 2025
Autori: Gyeongjin Kang, Seungtae Nam, Xiangyu Sun, Sameh Khamis, Abdelrahman Mohamed, Eunbyung Park
cs.AI
Abstract
La modellazione 3D feed-forward è emersa come un approccio promettente per una ricostruzione 3D rapida e di alta qualità. In particolare, la generazione diretta di rappresentazioni 3D esplicite, come lo splatting con Gaussiane 3D, ha attirato notevole attenzione grazie al rendering veloce e di alta qualità, nonché alle numerose applicazioni. Tuttavia, molti metodi all'avanguardia, basati principalmente su architetture transformer, soffrono di gravi problemi di scalabilità poiché si affidano a un'attenzione completa tra i token delle immagini provenienti da più viste di input, risultando in costi computazionali proibitivi all'aumentare del numero di viste o della risoluzione delle immagini. Verso una ricostruzione 3D feed-forward scalabile ed efficiente, introduciamo un Large 3D Reconstruction Model iterativo (iLRM) che genera rappresentazioni di Gaussiane 3D attraverso un meccanismo di raffinamento iterativo, guidato da tre principi fondamentali: (1) disaccoppiare la rappresentazione della scena dalle immagini delle viste di input per consentire rappresentazioni 3D compatte; (2) scomporre le interazioni multi-vista completamente attentive in uno schema di attenzione a due stadi per ridurre i costi computazionali; e (3) iniettare informazioni ad alta risoluzione in ogni livello per ottenere una ricostruzione ad alta fedeltà. I risultati sperimentali su dataset ampiamente utilizzati, come RE10K e DL3DV, dimostrano che iLRM supera i metodi esistenti sia nella qualità della ricostruzione che nella velocità. In particolare, iLRM mostra una scalabilità superiore, fornendo una qualità di ricostruzione significativamente più elevata a parità di costo computazionale, sfruttando in modo efficiente un numero maggiore di viste di input.
English
Feed-forward 3D modeling has emerged as a promising approach for rapid and
high-quality 3D reconstruction. In particular, directly generating explicit 3D
representations, such as 3D Gaussian splatting, has attracted significant
attention due to its fast and high-quality rendering, as well as numerous
applications. However, many state-of-the-art methods, primarily based on
transformer architectures, suffer from severe scalability issues because they
rely on full attention across image tokens from multiple input views, resulting
in prohibitive computational costs as the number of views or image resolution
increases. Toward a scalable and efficient feed-forward 3D reconstruction, we
introduce an iterative Large 3D Reconstruction Model (iLRM) that generates 3D
Gaussian representations through an iterative refinement mechanism, guided by
three core principles: (1) decoupling the scene representation from input-view
images to enable compact 3D representations; (2) decomposing fully-attentional
multi-view interactions into a two-stage attention scheme to reduce
computational costs; and (3) injecting high-resolution information at every
layer to achieve high-fidelity reconstruction. Experimental results on widely
used datasets, such as RE10K and DL3DV, demonstrate that iLRM outperforms
existing methods in both reconstruction quality and speed. Notably, iLRM
exhibits superior scalability, delivering significantly higher reconstruction
quality under comparable computational cost by efficiently leveraging a larger
number of input views.