IGGT: Трансформер геометрии с привязкой к экземплярам для семантической 3D-реконструкции
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction
October 26, 2025
Авторы: Hao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu
cs.AI
Аннотация
Люди естественным образом воспринимают геометрическую структуру и семантическое содержание трёхмерного мира как взаимосвязанные измерения, что обеспечивает целостное и точное понимание сложных сцен. Однако большинство предыдущих подходов отдают приоритет обучению больших геометрических моделей для низкоуровневой 3D-реконструкции и рассматривают высокоуровневое пространственное понимание изолированно, упуская из виду критическое взаимодействие между этими двумя фундаментальными аспектами анализа 3D-сцен. Это ограничивает обобщающую способность и приводит к низкой производительности в последующих задачах 3D-понимания. Недавние попытки смягчили эту проблему путём простого согласования 3D-моделей с конкретными языковыми моделями, что, однако, ограничивает восприятие возможностями согласованной модели и снижает адаптивность к прикладным задачам. В данной статье мы предлагаем InstanceGrounded Geometry Transformer (IGGT) — сквозную крупную унифицированную трансформерную архитектуру для объединения знаний как пространственной реконструкции, так и контекстного понимания на уровне экземпляров объектов. В частности, мы разрабатываем стратегию 3D-согласованного контрастного обучения, которая направляет IGGT на кодирование унифицированного представления с геометрическими структурами и кластеризацией на основе экземпляров, используя только 2D-визуальные входные данные. Это представление поддерживает согласованное преобразование 2D-визуальных входов в целостную 3D-сцену с явно выделенными экземплярами объектов. Для обеспечения данной задачи мы дополнительно создали InsScene-15K — масштабный набор данных с высококачественными RGB-изображениями, позами, картами глубины и 3D-согласованными аннотациями масок на уровне экземпляров, используя новый конвейер подготовки данных.
English
Humans naturally perceive the geometric structure and semantic content of a
3D world as intertwined dimensions, enabling coherent and accurate
understanding of complex scenes. However, most prior approaches prioritize
training large geometry models for low-level 3D reconstruction and treat
high-level spatial understanding in isolation, overlooking the crucial
interplay between these two fundamental aspects of 3D-scene analysis, thereby
limiting generalization and leading to poor performance in downstream 3D
understanding tasks. Recent attempts have mitigated this issue by simply
aligning 3D models with specific language models, thus restricting perception
to the aligned model's capacity and limiting adaptability to downstream tasks.
In this paper, we propose InstanceGrounded Geometry Transformer (IGGT), an
end-to-end large unified transformer to unify the knowledge for both spatial
reconstruction and instance-level contextual understanding. Specifically, we
design a 3D-Consistent Contrastive Learning strategy that guides IGGT to encode
a unified representation with geometric structures and instance-grounded
clustering through only 2D visual inputs. This representation supports
consistent lifting of 2D visual inputs into a coherent 3D scene with explicitly
distinct object instances. To facilitate this task, we further construct
InsScene-15K, a large-scale dataset with high-quality RGB images, poses, depth
maps, and 3D-consistent instance-level mask annotations with a novel data
curation pipeline.