콘체르토: 2D-3D 연합 자기지도 학습을 통한 공간 표현의 자연적 발현
Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
October 27, 2025
저자: Yujia Zhang, Xiaoyang Wu, Yixing Lao, Chengyao Wang, Zhuotao Tian, Naiyan Wang, Hengshuang Zhao
cs.AI
초록
인간은 다중 감각 시너지를 통해 추상적 개념을 학습하며, 일단 형성된 이러한 표상은 단일 양식에서도 종종 재생될 수 있습니다. 이러한 원리에 영감을 받아, 본 연구에서는 3D 내부 양식 자기 디스틸레이션과 2D-3D 교차 양식 공동 임베딩을 결합한 공간 인지를 위한 인간 개념 학습의 극소형 시뮬레이션인 Concerto를 소개합니다. 간결함에도 불구하고 Concerto는 제로샷 시각화를 통해 입증된 바와 같이 더 일관적이고 정보량이 풍부한 공간 특징을 학습합니다. 3D 장면 인지를 위한 선형 탐사에서 Concerto는 단독 SOTA 2D 및 3D 자기 지도 모델을 각각 14.2%, 4.8% 능가하며, 이들의 특징 연결보다도 뛰어난 성능을 보입니다. 전체 미세 조정 시 Concerto는 여러 장면 이해 벤치마크에서 새로운 SOTA 결과를 수립합니다(예: ScanNet에서 80.7% mIoU). 또한 비디오 기반 포인트 클라우드 공간 이해에 특화된 Concerto 변형과 Concerto 표상을 CLIP의 언어 공간으로 선형 투영하여 개방형 세계 인지를 가능하게 하는 번역기를 제시합니다. 이러한 결과는 Concerto가 우수한 세밀 기하학적 및 의미론적 일관성을 지닌 공간 표상을 생성함을 보여줍니다.
English
Humans learn abstract concepts through multisensory synergy, and once formed,
such representations can often be recalled from a single modality. Inspired by
this principle, we introduce Concerto, a minimalist simulation of human concept
learning for spatial cognition, combining 3D intra-modal self-distillation with
2D-3D cross-modal joint embedding. Despite its simplicity, Concerto learns more
coherent and informative spatial features, as demonstrated by zero-shot
visualizations. It outperforms both standalone SOTA 2D and 3D self-supervised
models by 14.2% and 4.8%, respectively, as well as their feature concatenation,
in linear probing for 3D scene perception. With full fine-tuning, Concerto sets
new SOTA results across multiple scene understanding benchmarks (e.g., 80.7%
mIoU on ScanNet). We further present a variant of Concerto tailored for
video-lifted point cloud spatial understanding, and a translator that linearly
projects Concerto representations into CLIP's language space, enabling
open-world perception. These results highlight that Concerto emerges spatial
representations with superior fine-grained geometric and semantic consistency.