ChatPaper.aiChatPaper

Concerto : L'apprentissage auto-supervisé conjoint 2D-3D fait émerger des représentations spatiales

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

October 27, 2025
papers.authors: Yujia Zhang, Xiaoyang Wu, Yixing Lao, Chengyao Wang, Zhuotao Tian, Naiyan Wang, Hengshuang Zhao
cs.AI

papers.abstract

Les humains apprennent des concepts abstraits grâce à la synergie multisensorielle, et une fois formées, ces représentations peuvent souvent être rappelées à partir d'une seule modalité. Inspiré par ce principe, nous présentons Concerto, une simulation minimaliste de l'apprentissage conceptuel humain pour la cognition spatiale, combinant l'auto-distillation intra-modale 3D avec un embedding conjoint cross-modal 2D-3D. Malgré sa simplicité, Concerto apprend des caractéristiques spatiales plus cohérentes et informatives, comme le démontrent les visualisations zero-shot. Il surpasse à la fois les modèles auto-supervisés SOTA 2D et 3D autonomes de 14,2 % et 4,8 % respectivement, ainsi que leur concaténation de caractéristiques, dans le sondage linéaire pour la perception de scènes 3D. Avec un fine-tuning complet, Concerto établit de nouveaux résultats SOTA sur plusieurs benchmarks de compréhension de scènes (par exemple, 80,7 % mIoU sur ScanNet). Nous présentons également une variante de Concerto adaptée à la compréhension spatiale de nuages de points issus de vidéos, et un traducteur qui projette linéairement les représentations de Concerto dans l'espace linguistique de CLIP, permettant une perception en monde ouvert. Ces résultats soulignent que Concerto fait émerger des représentations spatiales avec une cohérence géométrique et sémantique fine supérieure.
English
Humans learn abstract concepts through multisensory synergy, and once formed, such representations can often be recalled from a single modality. Inspired by this principle, we introduce Concerto, a minimalist simulation of human concept learning for spatial cognition, combining 3D intra-modal self-distillation with 2D-3D cross-modal joint embedding. Despite its simplicity, Concerto learns more coherent and informative spatial features, as demonstrated by zero-shot visualizations. It outperforms both standalone SOTA 2D and 3D self-supervised models by 14.2% and 4.8%, respectively, as well as their feature concatenation, in linear probing for 3D scene perception. With full fine-tuning, Concerto sets new SOTA results across multiple scene understanding benchmarks (e.g., 80.7% mIoU on ScanNet). We further present a variant of Concerto tailored for video-lifted point cloud spatial understanding, and a translator that linearly projects Concerto representations into CLIP's language space, enabling open-world perception. These results highlight that Concerto emerges spatial representations with superior fine-grained geometric and semantic consistency.
PDF1774December 31, 2025