ChatPaper.aiChatPaper

iLRM: Een Iteratief Model voor Grootschalige 3D-reconstructie

iLRM: An Iterative Large 3D Reconstruction Model

July 31, 2025
Auteurs: Gyeongjin Kang, Seungtae Nam, Xiangyu Sun, Sameh Khamis, Abdelrahman Mohamed, Eunbyung Park
cs.AI

Samenvatting

Feed-forward 3D-modellering is naar voren gekomen als een veelbelovende benadering voor snelle en hoogwaardige 3D-reconstructie. In het bijzonder heeft het direct genereren van expliciete 3D-representaties, zoals 3D Gaussian splatting, aanzienlijke aandacht getrokken vanwege de snelle en hoogwaardige rendering, evenals de vele toepassingen. Veel state-of-the-art methoden, voornamelijk gebaseerd op transformer-architecturen, kampen echter met ernstige schaalbaarheidsproblemen omdat ze afhankelijk zijn van volledige aandacht tussen beeldtokens uit meerdere invoerweergaven, wat resulteert in onhoudbare rekenkosten naarmate het aantal weergaven of de beeldresolutie toeneemt. Met het oog op een schaalbare en efficiënte feed-forward 3D-reconstructie introduceren we een iteratief Large 3D Reconstruction Model (iLRM) dat 3D Gaussian-representaties genereert via een iteratief verfijningsmechanisme, geleid door drie kernprincipes: (1) het ontkoppelen van de scène-representatie van invoerbeeldweergaven om compacte 3D-representaties mogelijk te maken; (2) het ontbinden van volledig-attentionele multi-view-interacties in een tweestaps attentieschema om rekenkosten te verminderen; en (3) het injecteren van hoogresolutie-informatie in elke laag om hoogwaardige reconstructie te bereiken. Experimentele resultaten op veelgebruikte datasets, zoals RE10K en DL3DV, tonen aan dat iLRM bestaande methoden overtreft in zowel reconstructiekwaliteit als snelheid. Opmerkelijk is dat iLRM superieure schaalbaarheid vertoont en aanzienlijk hogere reconstructiekwaliteit levert bij vergelijkbare rekenkosten door efficiënt gebruik te maken van een groter aantal invoerweergaven.
English
Feed-forward 3D modeling has emerged as a promising approach for rapid and high-quality 3D reconstruction. In particular, directly generating explicit 3D representations, such as 3D Gaussian splatting, has attracted significant attention due to its fast and high-quality rendering, as well as numerous applications. However, many state-of-the-art methods, primarily based on transformer architectures, suffer from severe scalability issues because they rely on full attention across image tokens from multiple input views, resulting in prohibitive computational costs as the number of views or image resolution increases. Toward a scalable and efficient feed-forward 3D reconstruction, we introduce an iterative Large 3D Reconstruction Model (iLRM) that generates 3D Gaussian representations through an iterative refinement mechanism, guided by three core principles: (1) decoupling the scene representation from input-view images to enable compact 3D representations; (2) decomposing fully-attentional multi-view interactions into a two-stage attention scheme to reduce computational costs; and (3) injecting high-resolution information at every layer to achieve high-fidelity reconstruction. Experimental results on widely used datasets, such as RE10K and DL3DV, demonstrate that iLRM outperforms existing methods in both reconstruction quality and speed. Notably, iLRM exhibits superior scalability, delivering significantly higher reconstruction quality under comparable computational cost by efficiently leveraging a larger number of input views.
PDF192August 1, 2025