IGGT: インスタンス接地型ジオメトリトランスフォーマーによる意味的3D再構成
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction
October 26, 2025
著者: Hao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu
cs.AI
要旨
人間は自然に3次元世界の幾何構造と意味内容を相互に絡み合った次元として知覚し、複雑なシーンを首尾一貫して正確に理解する能力を有しています。しかし、従来の手法の多くは低次元の3D再構成のための大規模幾何学モデルの学習を優先し、高次元の空間理解を個別に扱う傾向があり、3Dシーン分析におけるこれら二つの基本側面の重要な相互作用を見過ごしてきました。その結果、一般化能力が制限され、下流の3D理解タスクにおける性能低下を招いています。最近の試みでは、3Dモデルを特定の言語モデルに単純に整合させることでこの問題を緩和しようとしていますが、知覚能力が整合モデルの容量に制約され、下流タスクへの適応性が限定されるという課題があります。本論文では、空間再構成とインスタンスレベルの文脈理解の両方の知識を統合するためのエンドツーエンドの大規模統一トランスフォーマーであるInstanceGrounded Geometry Transformer(IGGT)を提案します。具体的には、3D一貫性対比学習戦略を設計し、IGGTが2D視覚入力のみから幾何構造とインスタンス接地クラスタリングを備えた統一表現を符号化するように導きます。この表現は、2D視覚入力の一貫した3Dシーンへのリフティングを、明示的に区別されたオブジェクトインスタンスとともに実現します。このタスクを促進するため、高品質RGB画像・姿勢・深度マップに加え、新規データキュレーションパイプラインによる3D一貫性インスタンスレベルマスク注釈を備えた大規模データセットInsScene-15Kを構築しました。
English
Humans naturally perceive the geometric structure and semantic content of a
3D world as intertwined dimensions, enabling coherent and accurate
understanding of complex scenes. However, most prior approaches prioritize
training large geometry models for low-level 3D reconstruction and treat
high-level spatial understanding in isolation, overlooking the crucial
interplay between these two fundamental aspects of 3D-scene analysis, thereby
limiting generalization and leading to poor performance in downstream 3D
understanding tasks. Recent attempts have mitigated this issue by simply
aligning 3D models with specific language models, thus restricting perception
to the aligned model's capacity and limiting adaptability to downstream tasks.
In this paper, we propose InstanceGrounded Geometry Transformer (IGGT), an
end-to-end large unified transformer to unify the knowledge for both spatial
reconstruction and instance-level contextual understanding. Specifically, we
design a 3D-Consistent Contrastive Learning strategy that guides IGGT to encode
a unified representation with geometric structures and instance-grounded
clustering through only 2D visual inputs. This representation supports
consistent lifting of 2D visual inputs into a coherent 3D scene with explicitly
distinct object instances. To facilitate this task, we further construct
InsScene-15K, a large-scale dataset with high-quality RGB images, poses, depth
maps, and 3D-consistent instance-level mask annotations with a novel data
curation pipeline.