ChatPaper.aiChatPaper

iLRM: 반복적 대규모 3D 재구성 모델

iLRM: An Iterative Large 3D Reconstruction Model

July 31, 2025
저자: Gyeongjin Kang, Seungtae Nam, Xiangyu Sun, Sameh Khamis, Abdelrahman Mohamed, Eunbyung Park
cs.AI

초록

피드포워드(feed-forward) 3D 모델링은 빠르고 고품질의 3D 재구성을 위한 유망한 접근 방식으로 부상하고 있습니다. 특히, 3D 가우시안 스플래팅(3D Gaussian splatting)과 같은 명시적 3D 표현을 직접 생성하는 방법은 빠르고 고품질의 렌더링 능력과 다양한 응용 가능성으로 인해 상당한 주목을 받고 있습니다. 그러나 트랜스포머(transformer) 아키텍처를 기반으로 한 많은 최신 방법들은 다중 입력 뷰의 이미지 토큰들 간의 완전한 어텐션(full attention)에 의존하기 때문에, 뷰의 수나 이미지 해상도가 증가함에 따라 계산 비용이 급증하는 심각한 확장성 문제를 겪고 있습니다. 확장성과 효율성을 갖춘 피드포워드 3D 재구성을 위해, 우리는 반복적 정제 메커니즘을 통해 3D 가우시안 표현을 생성하는 반복적 대형 3D 재구성 모델(iLRM)을 제안합니다. 이 모델은 세 가지 핵심 원칙에 기반합니다: (1) 장면 표현을 입력 뷰 이미지와 분리하여 간결한 3D 표현을 가능하게 함, (2) 완전 어텐션 기반의 다중 뷰 상호작용을 두 단계의 어텐션 체계로 분해하여 계산 비용을 줄임, (3) 모든 레이어에서 고해상도 정보를 주입하여 고품질 재구성을 달성함. RE10K 및 DL3DV와 같은 널리 사용되는 데이터셋에서의 실험 결과는 iLRM이 재구성 품질과 속도 모두에서 기존 방법들을 능가함을 보여줍니다. 특히, iLRM은 더 많은 수의 입력 뷰를 효율적으로 활용함으로써 동일한 계산 비용 하에서도 훨씬 더 높은 재구성 품질을 제공하는 우수한 확장성을 보입니다.
English
Feed-forward 3D modeling has emerged as a promising approach for rapid and high-quality 3D reconstruction. In particular, directly generating explicit 3D representations, such as 3D Gaussian splatting, has attracted significant attention due to its fast and high-quality rendering, as well as numerous applications. However, many state-of-the-art methods, primarily based on transformer architectures, suffer from severe scalability issues because they rely on full attention across image tokens from multiple input views, resulting in prohibitive computational costs as the number of views or image resolution increases. Toward a scalable and efficient feed-forward 3D reconstruction, we introduce an iterative Large 3D Reconstruction Model (iLRM) that generates 3D Gaussian representations through an iterative refinement mechanism, guided by three core principles: (1) decoupling the scene representation from input-view images to enable compact 3D representations; (2) decomposing fully-attentional multi-view interactions into a two-stage attention scheme to reduce computational costs; and (3) injecting high-resolution information at every layer to achieve high-fidelity reconstruction. Experimental results on widely used datasets, such as RE10K and DL3DV, demonstrate that iLRM outperforms existing methods in both reconstruction quality and speed. Notably, iLRM exhibits superior scalability, delivering significantly higher reconstruction quality under comparable computational cost by efficiently leveraging a larger number of input views.
PDF92August 1, 2025