ChatPaper.aiChatPaper

iLRM: Ein iteratives Modell für großflächige 3D-Rekonstruktion

iLRM: An Iterative Large 3D Reconstruction Model

July 31, 2025
papers.authors: Gyeongjin Kang, Seungtae Nam, Xiangyu Sun, Sameh Khamis, Abdelrahman Mohamed, Eunbyung Park
cs.AI

papers.abstract

Feed-forward 3D-Modellierung hat sich als vielversprechender Ansatz für schnelle und hochwertige 3D-Rekonstruktion etabliert. Insbesondere die direkte Erzeugung expliziter 3D-Darstellungen, wie 3D-Gaussian-Splatting, hat aufgrund ihrer schnellen und qualitativ hochwertigen Darstellung sowie zahlreicher Anwendungen erhebliche Aufmerksamkeit erregt. Viele state-of-the-art-Methoden, die hauptsächlich auf Transformer-Architekturen basieren, leiden jedoch unter erheblichen Skalierbarkeitsproblemen, da sie auf vollständiger Aufmerksamkeit über Bild-Tokens aus mehreren Eingabeansichten beruhen, was zu prohibitiv hohen Rechenkosten führt, wenn die Anzahl der Ansichten oder die Bildauflösung steigt. Um eine skalierbare und effiziente Feed-forward-3D-Rekonstruktion zu erreichen, führen wir ein iteratives Large 3D Reconstruction Model (iLRM) ein, das 3D-Gaussian-Darstellungen durch einen iterativen Verfeinerungsmechanismus erzeugt, der von drei Kernprinzipien geleitet wird: (1) Entkopplung der Szenendarstellung von den Eingabeansichtsbildern, um kompakte 3D-Darstellungen zu ermöglichen; (2) Zerlegung vollständig aufmerksamer Multi-View-Interaktionen in ein zweistufiges Aufmerksamkeitsschema, um die Rechenkosten zu reduzieren; und (3) Einbringen hochauflösender Informationen in jeder Schicht, um eine hochauflösende Rekonstruktion zu erreichen. Experimentelle Ergebnisse auf weit verbreiteten Datensätzen wie RE10K und DL3DV zeigen, dass iLRM bestehende Methoden sowohl in der Rekonstruktionsqualität als auch in der Geschwindigkeit übertrifft. Insbesondere zeigt iLRM eine überlegene Skalierbarkeit und liefert bei vergleichbaren Rechenkosten eine signifikant höhere Rekonstruktionsqualität, indem es effizient eine größere Anzahl von Eingabeansichten nutzt.
English
Feed-forward 3D modeling has emerged as a promising approach for rapid and high-quality 3D reconstruction. In particular, directly generating explicit 3D representations, such as 3D Gaussian splatting, has attracted significant attention due to its fast and high-quality rendering, as well as numerous applications. However, many state-of-the-art methods, primarily based on transformer architectures, suffer from severe scalability issues because they rely on full attention across image tokens from multiple input views, resulting in prohibitive computational costs as the number of views or image resolution increases. Toward a scalable and efficient feed-forward 3D reconstruction, we introduce an iterative Large 3D Reconstruction Model (iLRM) that generates 3D Gaussian representations through an iterative refinement mechanism, guided by three core principles: (1) decoupling the scene representation from input-view images to enable compact 3D representations; (2) decomposing fully-attentional multi-view interactions into a two-stage attention scheme to reduce computational costs; and (3) injecting high-resolution information at every layer to achieve high-fidelity reconstruction. Experimental results on widely used datasets, such as RE10K and DL3DV, demonstrate that iLRM outperforms existing methods in both reconstruction quality and speed. Notably, iLRM exhibits superior scalability, delivering significantly higher reconstruction quality under comparable computational cost by efficiently leveraging a larger number of input views.
PDF132August 1, 2025