ChatPaper.aiChatPaper

Concerto: 2Dと3Dの共同自己教師学習が空間表現を創発する

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

October 27, 2025
著者: Yujia Zhang, Xiaoyang Wu, Yixing Lao, Chengyao Wang, Zhuotao Tian, Naiyan Wang, Hengshuang Zhao
cs.AI

要旨

人間は複数の感覚の統合を通じて抽象的概念を学習し、一度形成された概念表現は単一の感覚モダリティから想起されることが多い。この原理に着想を得て、我々は3Dモダリティ内自己蒸留と2D-3Dクロスモーダル共同埋め込みを組み合わせた、空間認知のための人間の概念学習を模倣したミニマリスト的アプローチ「Concerto」を提案する。簡素な設計にも関わらず、Concertoはより一貫性のある情報量の多い空間特徴を学習し、ゼロショット可視化によってその有効性が実証された。3Dシーン知覚における線形 probing では、単体のSOTA(State-of-the-Art)2D自己教師ありモデルを14.2%、3Dモデルを4.8%上回り、それらの特徴量連結よりも優れた性能を示した。フルファインチューニングでは、複数のシーン理解ベンチマークで新たなSOTA結果(例:ScanNetで80.7% mIoU)を達成した。さらに、映像から抽出した点群の空間理解に特化したConcertoの変種と、CLIPの言語空間へConcertoの表現を線形射影することで開放世界知覚を可能にする翻訳器を提示する。これらの結果は、Concertoが優れた細粒度の幾何学的・意味的一貫性を備えた空間表現を創発することを示している。
English
Humans learn abstract concepts through multisensory synergy, and once formed, such representations can often be recalled from a single modality. Inspired by this principle, we introduce Concerto, a minimalist simulation of human concept learning for spatial cognition, combining 3D intra-modal self-distillation with 2D-3D cross-modal joint embedding. Despite its simplicity, Concerto learns more coherent and informative spatial features, as demonstrated by zero-shot visualizations. It outperforms both standalone SOTA 2D and 3D self-supervised models by 14.2% and 4.8%, respectively, as well as their feature concatenation, in linear probing for 3D scene perception. With full fine-tuning, Concerto sets new SOTA results across multiple scene understanding benchmarks (e.g., 80.7% mIoU on ScanNet). We further present a variant of Concerto tailored for video-lifted point cloud spatial understanding, and a translator that linearly projects Concerto representations into CLIP's language space, enabling open-world perception. These results highlight that Concerto emerges spatial representations with superior fine-grained geometric and semantic consistency.
PDF1774December 31, 2025