Концерто: Совместное самообучение 2D-3D формирует пространственные репрезентации
Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
October 27, 2025
Авторы: Yujia Zhang, Xiaoyang Wu, Yixing Lao, Chengyao Wang, Zhuotao Tian, Naiyan Wang, Hengshuang Zhao
cs.AI
Аннотация
Люди осваивают абстрактные концепции через мультисенсорную синергию, и однажды сформированные репрезентации часто могут быть воспроизведены на основе единственной модальности. Вдохновленные этим принципом, мы представляем Concerto — минималистичную симуляцию человеческого концептуального обучения для пространственного познания, сочетающую 3D внутримодальную самодистилляцию с 2D-3D кросс-модальным совместным embedding-представлением. Несмотря на простоту, Concerto изучает более согласованные и информативные пространственные признаки, что демонстрируется визуализацией в режиме zero-shot. Метод превосходит как автономные современные (SOTA) 2D и 3D самоконтролируемые модели на 14.2% и 4.8% соответственно, так и их конкатенацию, в задаче линейного probing для восприятия 3D сцен. При полном дообучении Concerto устанавливает новые SOTA результаты на множестве бенчмарков сценового понимания (например, 80.7% mIoU на ScanNet). Мы также представляем вариант Concerto, адаптированный для пространственного понимания точечных облаков, полученных из видео, и транслятор, который линейно проецирует репрезентации Concerto в языковое пространство CLIP, обеспечивая открытое мировосприятие. Эти результаты подчеркивают, что Concerto формирует пространственные репрезентации с превосходной геометрической и семантической согласованностью на детальном уровне.
English
Humans learn abstract concepts through multisensory synergy, and once formed,
such representations can often be recalled from a single modality. Inspired by
this principle, we introduce Concerto, a minimalist simulation of human concept
learning for spatial cognition, combining 3D intra-modal self-distillation with
2D-3D cross-modal joint embedding. Despite its simplicity, Concerto learns more
coherent and informative spatial features, as demonstrated by zero-shot
visualizations. It outperforms both standalone SOTA 2D and 3D self-supervised
models by 14.2% and 4.8%, respectively, as well as their feature concatenation,
in linear probing for 3D scene perception. With full fine-tuning, Concerto sets
new SOTA results across multiple scene understanding benchmarks (e.g., 80.7%
mIoU on ScanNet). We further present a variant of Concerto tailored for
video-lifted point cloud spatial understanding, and a translator that linearly
projects Concerto representations into CLIP's language space, enabling
open-world perception. These results highlight that Concerto emerges spatial
representations with superior fine-grained geometric and semantic consistency.