ChatPaper.aiChatPaper

IGGT: Instance-Gegronde Geometrie Transformer voor Semantische 3D-Reconstructie

IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction

October 26, 2025
Auteurs: Hao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu
cs.AI

Samenvatting

Mensen nemen de geometrische structuur en semantische inhoud van een 3D-wereld van nature waar als verweven dimensies, wat een coherent en accuraat begrip van complexe scènes mogelijk maakt. De meeste bestaande benaderingen prioriteren echter het trainen van grote geometriemodellen voor laagwaardige 3D-reconstructie en behandelen hoogwaardig ruimtelijk begrip geïsoleerd, waarbij ze het cruciale samenspel tussen deze twee fundamentele aspecten van 3D-scène-analyse over het hoofd zien. Dit beperkt de generalisatie en leidt tot slechte prestaties bij downstream 3D-begriptaken. Recente pogingen hebben dit probleem verlicht door simpelweg 3D-modellen af te stemmen op specifieke taalmodellen, waardoor de perceptie wordt beperkt tot de capaciteit van het afgestemde model en de aanpasbaarheid aan downstream taken wordt beperkt. In dit artikel stellen we InstanceGrounded Geometry Transformer (IGGT) voor, een end-to-end grote, verenigde transformer om de kennis voor zowel ruimtelijke reconstructie als instantiegebaseerd contextueel begrip te verenigen. Specifiek ontwerpen we een 3D-consistente contrastieve leerstrategie die IGGT begeleidt om een verenigde representatie te coderen met geometrische structuren en instantiegebaseerde clustering uitsluitend via 2D-visuele invoer. Deze representatie ondersteunt de consistente transformatie van 2D-visuele invoer naar een coherente 3D-scène met expliciet onderscheiden objectinstanties. Om deze taak te vergemakkelijken, construeren we verder InsScene-15K, een grootschalige dataset met hoogwaardige RGB-beelden, poses, dieptekaarten en 3D-consistente instantieniveau maskerannotaties via een nieuwe data-curatiepijplijn.
English
Humans naturally perceive the geometric structure and semantic content of a 3D world as intertwined dimensions, enabling coherent and accurate understanding of complex scenes. However, most prior approaches prioritize training large geometry models for low-level 3D reconstruction and treat high-level spatial understanding in isolation, overlooking the crucial interplay between these two fundamental aspects of 3D-scene analysis, thereby limiting generalization and leading to poor performance in downstream 3D understanding tasks. Recent attempts have mitigated this issue by simply aligning 3D models with specific language models, thus restricting perception to the aligned model's capacity and limiting adaptability to downstream tasks. In this paper, we propose InstanceGrounded Geometry Transformer (IGGT), an end-to-end large unified transformer to unify the knowledge for both spatial reconstruction and instance-level contextual understanding. Specifically, we design a 3D-Consistent Contrastive Learning strategy that guides IGGT to encode a unified representation with geometric structures and instance-grounded clustering through only 2D visual inputs. This representation supports consistent lifting of 2D visual inputs into a coherent 3D scene with explicitly distinct object instances. To facilitate this task, we further construct InsScene-15K, a large-scale dataset with high-quality RGB images, poses, depth maps, and 3D-consistent instance-level mask annotations with a novel data curation pipeline.
PDF401December 31, 2025