Concerto: Gezamenlijk 2D-3D Zelf-ondersteund Leren Ontwikkelt Ruimtelijke Representaties
Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
October 27, 2025
Auteurs: Yujia Zhang, Xiaoyang Wu, Yixing Lao, Chengyao Wang, Zhuotao Tian, Naiyan Wang, Hengshuang Zhao
cs.AI
Samenvatting
Mensen leren abstracte concepten aan via multisensorische synergie, en zodra deze gevormd zijn, kunnen dergelijke representaties vaak vanuit één enkele modaliteit worden opgeroepen. Geïnspireerd door dit principe introduceren we Concerto, een minimalistische simulatie van menselijke conceptvorming voor ruimtelijke cognitie, die 3D intramodale zelfdistillatie combineert met 2D-3D cross-modale gezamenlijke inbedding. Ondanks zijn eenvoud leert Concerto coherentere en informatievere ruimtelijke kenmerken, zoals gedemonstreerd door zero-shot visualisaties. Het overtreft zowel standalone state-of-the-art 2D- als 3D zelfgesuperviseerde modellen met respectievelijk 14,2% en 4,8%, evenals hun kenmerkenconcatenatie, in lineaire probing voor 3D-scèneperceptie. Met volledige fine-tuning stelt Concerto nieuwe state-of-the-art resultaten vast op meerdere scènebegrip-benchmarks (bijv. 80,7% mIoU op ScanNet). We presenteren verder een variant van Concerto toegesneden op ruimtelijk begrip van videogegenereerde puntenwolken, en een translator die Concerto-representaties lineair projecteert in de taalkundige ruimte van CLIP, waardoor open-wereldperceptie mogelijk wordt. Deze resultaten benadrukken dat Concerto ruimtelijke representaties ontwikkelt met superieure fijnmazige geometrische en semantische consistentie.
English
Humans learn abstract concepts through multisensory synergy, and once formed,
such representations can often be recalled from a single modality. Inspired by
this principle, we introduce Concerto, a minimalist simulation of human concept
learning for spatial cognition, combining 3D intra-modal self-distillation with
2D-3D cross-modal joint embedding. Despite its simplicity, Concerto learns more
coherent and informative spatial features, as demonstrated by zero-shot
visualizations. It outperforms both standalone SOTA 2D and 3D self-supervised
models by 14.2% and 4.8%, respectively, as well as their feature concatenation,
in linear probing for 3D scene perception. With full fine-tuning, Concerto sets
new SOTA results across multiple scene understanding benchmarks (e.g., 80.7%
mIoU on ScanNet). We further present a variant of Concerto tailored for
video-lifted point cloud spatial understanding, and a translator that linearly
projects Concerto representations into CLIP's language space, enabling
open-world perception. These results highlight that Concerto emerges spatial
representations with superior fine-grained geometric and semantic consistency.