IGGT : Transformateur de Géométrie à Base d'Instances pour la Reconstruction Sémantique 3D
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction
October 26, 2025
papers.authors: Hao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu
cs.AI
papers.abstract
L'être humain perçoit naturellement la structure géométrique et le contenu sémantique d'un monde 3D comme des dimensions entrelacées, permettant une compréhension cohérente et précise de scènes complexes. Cependant, la plupart des approches antérieures privilégient l'entraînement de grands modèles géométriques pour la reconstruction 3D de bas niveau et traitent la compréhension spatiale de haut niveau de manière isolée, négligeant l'interaction cruciale entre ces deux aspects fondamentaux de l'analyse de scènes 3D, limitant ainsi la généralisation et conduisant à de faibles performances dans les tâches aval de compréhension 3D. Des tentatives récentes ont atténué ce problème en alignant simplement des modèles 3D avec des modèles de langage spécifiques, restreignant ainsi la perception aux capacités du modèle aligné et limitant l'adaptabilité aux tâches en aval. Dans cet article, nous proposons InstanceGrounded Geometry Transformer (IGGT), un grand transformateur unifié de bout en bout pour unifier les connaissances liées à la reconstruction spatiale et à la compréhension contextuelle au niveau des instances. Plus précisément, nous concevons une stratégie d'apprentissage contrastif 3D-consistant qui guide IGGT pour encoder une représentation unifiée avec des structures géométriques et un regroupement ancré sur les instances à partir de seulement des entrées visuelles 2D. Cette représentation permet de transformer de manière cohérente des entrées visuelles 2D en une scène 3D cohérente avec des instances d'objets explicitement distinctes. Pour faciliter cette tâche, nous construisons en outre InsScene-15K, un jeu de données à grande échelle contenant des images RVB de haute qualité, des poses, des cartes de profondeur et des annotations de masques au niveau des instances 3D-consistantes, grâce à un nouveau pipeline de curation de données.
English
Humans naturally perceive the geometric structure and semantic content of a
3D world as intertwined dimensions, enabling coherent and accurate
understanding of complex scenes. However, most prior approaches prioritize
training large geometry models for low-level 3D reconstruction and treat
high-level spatial understanding in isolation, overlooking the crucial
interplay between these two fundamental aspects of 3D-scene analysis, thereby
limiting generalization and leading to poor performance in downstream 3D
understanding tasks. Recent attempts have mitigated this issue by simply
aligning 3D models with specific language models, thus restricting perception
to the aligned model's capacity and limiting adaptability to downstream tasks.
In this paper, we propose InstanceGrounded Geometry Transformer (IGGT), an
end-to-end large unified transformer to unify the knowledge for both spatial
reconstruction and instance-level contextual understanding. Specifically, we
design a 3D-Consistent Contrastive Learning strategy that guides IGGT to encode
a unified representation with geometric structures and instance-grounded
clustering through only 2D visual inputs. This representation supports
consistent lifting of 2D visual inputs into a coherent 3D scene with explicitly
distinct object instances. To facilitate this task, we further construct
InsScene-15K, a large-scale dataset with high-quality RGB images, poses, depth
maps, and 3D-consistent instance-level mask annotations with a novel data
curation pipeline.