IGGT: Transformador de Geometria com Base em Instâncias para Reconstrução Semântica 3D
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction
October 26, 2025
Autores: Hao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu
cs.AI
Resumo
Os seres humanos percebem naturalmente a estrutura geométrica e o conteúdo semântico de um mundo 3D como dimensões interligadas, permitindo uma compreensão coerente e precisa de cenas complexas. No entanto, a maioria das abordagens anteriores prioriza o treinamento de grandes modelos de geometria para reconstrução 3D de baixo nível e trata a compreensão espacial de alto nível de forma isolada, negligenciando a crucial interação entre estes dois aspectos fundamentais da análise de cenas 3D, limitando assim a generalização e resultando em desempenho insatisfatório em tarefas subsequentes de compreensão 3D. Tentativas recentes mitigaram este problema simplesmente alinhando modelos 3D com modelos de linguagem específicos, restringindo assim a percepção à capacidade do modelo alinhado e limitando a adaptabilidade a tarefas subsequentes.
Neste artigo, propomos o *InstanceGrounded Geometry Transformer* (IGGT), um grande transformador unificado de ponta a ponta para unificar o conhecimento tanto para reconstrução espacial quanto para compreensão contextual a nível de instância. Especificamente, projetamos uma estratégia de *Aprendizado Contrastivo 3D-Consistente* que orienta o IGGT a codificar uma representação unificada com estruturas geométricas e agrupamento baseado em instâncias usando apenas entradas visuais 2D. Esta representação suporta a elevação consistente de entradas visuais 2D para uma cena 3D coerente com instâncias de objetos explicitamente distintas. Para facilitar esta tarefa, construímos ainda o InsScene-15K, um conjunto de dados em larga escala com imagens RGB de alta qualidade, poses, mapas de profundidade e anotações de máscaras a nível de instância 3D-consistentes, utilizando um novo *pipeline* de curadoria de dados.
English
Humans naturally perceive the geometric structure and semantic content of a
3D world as intertwined dimensions, enabling coherent and accurate
understanding of complex scenes. However, most prior approaches prioritize
training large geometry models for low-level 3D reconstruction and treat
high-level spatial understanding in isolation, overlooking the crucial
interplay between these two fundamental aspects of 3D-scene analysis, thereby
limiting generalization and leading to poor performance in downstream 3D
understanding tasks. Recent attempts have mitigated this issue by simply
aligning 3D models with specific language models, thus restricting perception
to the aligned model's capacity and limiting adaptability to downstream tasks.
In this paper, we propose InstanceGrounded Geometry Transformer (IGGT), an
end-to-end large unified transformer to unify the knowledge for both spatial
reconstruction and instance-level contextual understanding. Specifically, we
design a 3D-Consistent Contrastive Learning strategy that guides IGGT to encode
a unified representation with geometric structures and instance-grounded
clustering through only 2D visual inputs. This representation supports
consistent lifting of 2D visual inputs into a coherent 3D scene with explicitly
distinct object instances. To facilitate this task, we further construct
InsScene-15K, a large-scale dataset with high-quality RGB images, poses, depth
maps, and 3D-consistent instance-level mask annotations with a novel data
curation pipeline.