IGGT: Trasformatore Geometrico Basato su Istanze per la Ricostruzione Semantica 3D
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction
October 26, 2025
Autori: Hao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu
cs.AI
Abstract
Gli esseri umani percepiscono naturalmente la struttura geometrica e il contenuto semantico di un mondo 3D come dimensioni interconnesse, consentendo una comprensione coerente e accurata di scene complesse. Tuttavia, la maggior parte degli approcci precedenti ha privilegiato l'addestramento di modelli geometrici di grandi dimensioni per la ricostruzione 3D di basso livello, trattando separatamente la comprensione spaziale di alto livello e trascurando la cruciale interazione tra questi due aspetti fondamentali dell'analisi di scene 3D, limitando così la generalizzazione e portando a scarse prestazioni nei compiti di comprensione 3D a valle. Tentativi recenti hanno mitigato questo problema allineando semplicemente modelli 3D con specifici modelli linguistici, restringendo però la percezione alla capacità del modello allineato e limitando l'adattabilità ai compiti downstream. In questo articolo, proponiamo InstanceGrounded Geometry Transformer (IGGT), un grande trasformatore unificato end-to-end per unificare la conoscenza sia per la ricostruzione spaziale che per la comprensione contestuale a livello di istanza. Nello specifico, progettiamo una strategia di Apprendimento Contrastivo 3D-Consistente che guida IGGT a codificare una rappresentazione unificata con strutture geometriche e clustering ancorato alle istanze, utilizzando solo input visivi 2D. Questa rappresentazione supporta il sollevamento coerente degli input visivi 2D in una scena 3D coerente con istanze oggetto esplicitamente distinte. Per facilitare questo compito, abbiamo inoltre costruito InsScene-15K, un dataset su larga scala con immagini RGB di alta qualità, pose, mappe di profondità e annotazioni di maschere a livello di istanza 3D-consistenti, utilizzando una nuova pipeline di curatela dei dati.
English
Humans naturally perceive the geometric structure and semantic content of a
3D world as intertwined dimensions, enabling coherent and accurate
understanding of complex scenes. However, most prior approaches prioritize
training large geometry models for low-level 3D reconstruction and treat
high-level spatial understanding in isolation, overlooking the crucial
interplay between these two fundamental aspects of 3D-scene analysis, thereby
limiting generalization and leading to poor performance in downstream 3D
understanding tasks. Recent attempts have mitigated this issue by simply
aligning 3D models with specific language models, thus restricting perception
to the aligned model's capacity and limiting adaptability to downstream tasks.
In this paper, we propose InstanceGrounded Geometry Transformer (IGGT), an
end-to-end large unified transformer to unify the knowledge for both spatial
reconstruction and instance-level contextual understanding. Specifically, we
design a 3D-Consistent Contrastive Learning strategy that guides IGGT to encode
a unified representation with geometric structures and instance-grounded
clustering through only 2D visual inputs. This representation supports
consistent lifting of 2D visual inputs into a coherent 3D scene with explicitly
distinct object instances. To facilitate this task, we further construct
InsScene-15K, a large-scale dataset with high-quality RGB images, poses, depth
maps, and 3D-consistent instance-level mask annotations with a novel data
curation pipeline.