Concerto: l'apprendimento auto-supervisionato congiunto 2D-3D fa emergere rappresentazioni spaziali
Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
October 27, 2025
Autori: Yujia Zhang, Xiaoyang Wu, Yixing Lao, Chengyao Wang, Zhuotao Tian, Naiyan Wang, Hengshuang Zhao
cs.AI
Abstract
Gli esseri umani apprendono concetti astratti attraverso la sinergia multisensoriale e, una volta formate, tali rappresentazioni possono spesso essere richiamate da una singola modalità. Ispirati da questo principio, introduciamo Concerto, una simulazione minimalista dell'apprendimento concettuale umano per la cognizione spaziale, che combina l'auto-distillazione intramidale 3D con l'incorporamento congiunto cross-modale 2D-3D. Nonostante la sua semplicità, Concerto apprende caratteristiche spaziali più coerenti e informative, come dimostrato dalle visualizzazioni zero-shot. Supera rispettivamente del 14,2% e del 4,8% i modelli auto-supervisionati SOTA 2D e 3D standalone, nonché la loro concatenazione di feature, nel probing lineare per la percezione di scene 3D. Con il fine-tuning completo, Concerto stabilisce nuovi risultati SOTA su molteplici benchmark di comprensione delle scene (ad esempio, 80,7% mIoU su ScanNet). Presentiamo inoltre una variante di Concerto sviluppata per la comprensione spaziale di nuvole di punti estratte da video, e un traduttore che proietta linearmente le rappresentazioni di Concerto nello spazio linguistico di CLIP, abilitando la percezione in mondo aperto. Questi risultati evidenziano come Concerto generi rappresentazioni spaziali con una consistenza geometrica e semantica fine-grain superiore.
English
Humans learn abstract concepts through multisensory synergy, and once formed,
such representations can often be recalled from a single modality. Inspired by
this principle, we introduce Concerto, a minimalist simulation of human concept
learning for spatial cognition, combining 3D intra-modal self-distillation with
2D-3D cross-modal joint embedding. Despite its simplicity, Concerto learns more
coherent and informative spatial features, as demonstrated by zero-shot
visualizations. It outperforms both standalone SOTA 2D and 3D self-supervised
models by 14.2% and 4.8%, respectively, as well as their feature concatenation,
in linear probing for 3D scene perception. With full fine-tuning, Concerto sets
new SOTA results across multiple scene understanding benchmarks (e.g., 80.7%
mIoU on ScanNet). We further present a variant of Concerto tailored for
video-lifted point cloud spatial understanding, and a translator that linearly
projects Concerto representations into CLIP's language space, enabling
open-world perception. These results highlight that Concerto emerges spatial
representations with superior fine-grained geometric and semantic consistency.