ChatPaper.aiChatPaper

IGGT: 인스턴스 기반 기하학 변환기를 활용한 의미론적 3D 재구성

IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction

October 26, 2025
저자: Hao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu
cs.AI

초록

인간은 자연스럽게 3차원 세계의 기하학적 구조와 의미론적 내용을 상호 연관된 차원으로 인지함으로써 복잡한 장면을 일관적이고 정확하게 이해합니다. 그러나 기존 연구의 대부분은 저수준 3차원 재구성을 위한 대규모 기하학 모델 학습을 우선시하고 고수준 공간 이해를 별개로 취급함으로써, 3차원 장면 분석의 두 가지 근본적 측면 간 중요한 상호작용을 간과했습니다. 이로 인해 일반화 능력이 제한되고 하류 3차원 이해 과제에서 성능이 저하되는 결과를 초래했습니다. 최근 일부 시도는 특정 언어 모델과 3차원 모델을 단순히 정렬하는 방식으로 이 문제를 완화하려 했으나, 이는 인식 능력을 정렬된 모델의 용량에 국한시키고 하류 과제에 대한 적응성을 제한합니다. 본 논문에서는 공간 재구성과 인스턴스 수준 문맥 이해에 대한 지식을 통합하는 end-to-end 대규모 통합 트랜스포머인 InstanceGrounded Geometry Transformer(IGGT)를 제안합니다. 구체적으로, 우리는 2차원 시각 입력만으로 기하학적 구조와 인스턴스 기반 클러스터링을 포함하는 통합 표현을 인코딩하도록 IGGT를 지도하는 3D-Consistent Contrastive Learning 전략을 설계했습니다. 이 표현은 2차원 시각 입력을 명시적으로 구분된 객체 인스턴스가 포함된 일관된 3차원 장면으로의 consistent lifting을 지원합니다. 이러한 과제를 위해 우리는 새로운 데이터 큐레이션 파이프라인을 통해 고품질 RGB 이미지, pose, 깊이 맵, 그리고 3차원 일관성 있는 인스턴스 수준 마스크 주석을 포함한 대규모 데이터셋인 InsScene-15K를 추가로 구축했습니다.
English
Humans naturally perceive the geometric structure and semantic content of a 3D world as intertwined dimensions, enabling coherent and accurate understanding of complex scenes. However, most prior approaches prioritize training large geometry models for low-level 3D reconstruction and treat high-level spatial understanding in isolation, overlooking the crucial interplay between these two fundamental aspects of 3D-scene analysis, thereby limiting generalization and leading to poor performance in downstream 3D understanding tasks. Recent attempts have mitigated this issue by simply aligning 3D models with specific language models, thus restricting perception to the aligned model's capacity and limiting adaptability to downstream tasks. In this paper, we propose InstanceGrounded Geometry Transformer (IGGT), an end-to-end large unified transformer to unify the knowledge for both spatial reconstruction and instance-level contextual understanding. Specifically, we design a 3D-Consistent Contrastive Learning strategy that guides IGGT to encode a unified representation with geometric structures and instance-grounded clustering through only 2D visual inputs. This representation supports consistent lifting of 2D visual inputs into a coherent 3D scene with explicitly distinct object instances. To facilitate this task, we further construct InsScene-15K, a large-scale dataset with high-quality RGB images, poses, depth maps, and 3D-consistent instance-level mask annotations with a novel data curation pipeline.
PDF401December 31, 2025