ChatPaper.aiChatPaper

IGGT: Instanzbasiertes Geometrie-Transformer für semantische 3D-Rekonstruktion

IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction

October 26, 2025
papers.authors: Hao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu
cs.AI

papers.abstract

Menschen nehmen die geometrische Struktur und semantische Inhalte einer 3D-Welt natürlicherweise als verwobene Dimensionen wahr, was ein kohärentes und präzises Verständnis komplexer Szenen ermöglicht. Die meisten bisherigen Ansätze priorisieren jedoch das Training großer Geometriemodelle für niedrigschwellige 3D-Rekonstruktion und behandeln hochleveliges räumliches Verständnis isoliert, wodurch das entscheidende Wechselspiel zwischen diesen beiden fundamentalen Aspekten der 3D-Szenenanalyse übersehen wird. Dies limitiert die Generalisierungsfähigkeit und führt zu schwacher Leistung in nachgelagerten 3D-Verstehenstasks. Jüngste Versuche milderten dieses Problem durch simples Alignment von 3D-Modellen mit spezifischen Sprachmodellen, beschränken die Wahrnehmung jedoch auf die Kapazität des alignierten Modells und begrenzen die Anpassungsfähigkeit an Downstream-Tasks. In dieser Arbeit präsentieren wir InstanceGrounded Geometry Transformer (IGGT), einen end-to-end großen unified Transformer zur Vereinheitlichung des Wissens für sowohl räumliche Rekonstruktion als auch instanzenbasiertes kontextuelles Verstehen. Konkret entwickeln wir eine 3D-konsistente Contrastive-Learning-Strategie, die IGGT anleitet, eine unified Repräsentation mit geometrischen Strukturen und instanzbasiertem Clustering ausschließlich durch 2D-Visualinputs zu encodieren. Diese Repräsentation unterstützt konsistentes Lifting von 2D-Visualinputs in eine kohärente 3D-Szene mit explizit distincten Objektinstanzen. Zur Unterstützung dieser Aufgabe konstruieren wir zusätzlich InsScene-15K, einen großskaligen Datensatz mit hochwertigen RGB-Bildern, Poses, Tiefenkarten und 3D-konsistenten instanzenbasierten Maskenannotationen mittels einer neuartigen Data-Curation-Pipeline.
English
Humans naturally perceive the geometric structure and semantic content of a 3D world as intertwined dimensions, enabling coherent and accurate understanding of complex scenes. However, most prior approaches prioritize training large geometry models for low-level 3D reconstruction and treat high-level spatial understanding in isolation, overlooking the crucial interplay between these two fundamental aspects of 3D-scene analysis, thereby limiting generalization and leading to poor performance in downstream 3D understanding tasks. Recent attempts have mitigated this issue by simply aligning 3D models with specific language models, thus restricting perception to the aligned model's capacity and limiting adaptability to downstream tasks. In this paper, we propose InstanceGrounded Geometry Transformer (IGGT), an end-to-end large unified transformer to unify the knowledge for both spatial reconstruction and instance-level contextual understanding. Specifically, we design a 3D-Consistent Contrastive Learning strategy that guides IGGT to encode a unified representation with geometric structures and instance-grounded clustering through only 2D visual inputs. This representation supports consistent lifting of 2D visual inputs into a coherent 3D scene with explicitly distinct object instances. To facilitate this task, we further construct InsScene-15K, a large-scale dataset with high-quality RGB images, poses, depth maps, and 3D-consistent instance-level mask annotations with a novel data curation pipeline.
PDF401December 31, 2025