IGGT: Transformador de Geometría con Base en Instancias para la Reconstrucción Semántica 3D
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction
October 26, 2025
Autores: Hao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu
cs.AI
Resumen
Los seres humanos perciben naturalmente la estructura geométrica y el contenido semántico de un mundo 3D como dimensiones interconectadas, lo que permite una comprensión coherente y precisa de escenas complejas. Sin embargo, la mayoría de los enfoques previos priorizan el entrenamiento de grandes modelos geométricos para la reconstrucción 3D de bajo nivel y tratan la comprensión espacial de alto nivel de forma aislada, pasando por alto la crucial interacción entre estos dos aspectos fundamentales del análisis de escenas 3D, lo que limita la generalización y conduce a un rendimiento deficiente en tareas subsiguientes de comprensión 3D. Intentos recientes han mitigado este problema simplemente alineando modelos 3D con modelos de lenguaje específicos, restringiendo así la percepción a la capacidad del modelo alineado y limitando la adaptabilidad a tareas posteriores. En este artículo, proponemos InstanceGrounded Geometry Transformer (IGGT), un gran transformador unificado de extremo a extremo para unificar el conocimiento tanto para la reconstrucción espacial como para la comprensión contextual a nivel de instancia. Específicamente, diseñamos una estrategia de Aprendizaje Contrastivo 3D-Consistente que guía a IGGT para codificar una representación unificada con estructuras geométricas y agrupación basada en instancias utilizando únicamente entradas visuales 2D. Esta representación permite la elevación consistente de entradas visuales 2D a una escena 3D coherente con instancias de objetos explícitamente distintas. Para facilitar esta tarea, construimos además InsScene-15K, un conjunto de datos a gran escala con imágenes RGB de alta calidad, poses, mapas de profundidad y anotaciones de máscaras a nivel de instancia 3D-consistentes, utilizando un novedoso pipeline de curación de datos.
English
Humans naturally perceive the geometric structure and semantic content of a
3D world as intertwined dimensions, enabling coherent and accurate
understanding of complex scenes. However, most prior approaches prioritize
training large geometry models for low-level 3D reconstruction and treat
high-level spatial understanding in isolation, overlooking the crucial
interplay between these two fundamental aspects of 3D-scene analysis, thereby
limiting generalization and leading to poor performance in downstream 3D
understanding tasks. Recent attempts have mitigated this issue by simply
aligning 3D models with specific language models, thus restricting perception
to the aligned model's capacity and limiting adaptability to downstream tasks.
In this paper, we propose InstanceGrounded Geometry Transformer (IGGT), an
end-to-end large unified transformer to unify the knowledge for both spatial
reconstruction and instance-level contextual understanding. Specifically, we
design a 3D-Consistent Contrastive Learning strategy that guides IGGT to encode
a unified representation with geometric structures and instance-grounded
clustering through only 2D visual inputs. This representation supports
consistent lifting of 2D visual inputs into a coherent 3D scene with explicitly
distinct object instances. To facilitate this task, we further construct
InsScene-15K, a large-scale dataset with high-quality RGB images, poses, depth
maps, and 3D-consistent instance-level mask annotations with a novel data
curation pipeline.