Concerto: Aprendizado Autossupervisionado Conjunto 2D-3D Emerge Representações Espaciais
Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
October 27, 2025
Autores: Yujia Zhang, Xiaoyang Wu, Yixing Lao, Chengyao Wang, Zhuotao Tian, Naiyan Wang, Hengshuang Zhao
cs.AI
Resumo
Os seres humanos aprendem conceitos abstratos através de sinergia multissensorial e, uma vez formadas, tais representações podem frequentemente ser recuperadas a partir de uma única modalidade. Inspirados por este princípio, introduzimos o Concerto, uma simulação minimalista da aprendizagem de conceitos humanos para cognição espacial, combinando auto-distilação intramodal 3D com incorporação conjunta cross-modal 2D-3D. Apesar da sua simplicidade, o Concerto aprende características espaciais mais coerentes e informativas, conforme demonstrado por visualizações *zero-shot*. Ele supera tanto os modelos autónomos *state-of-the-art* (SOTA) de auto-supervisão 2D como 3D em 14,2% e 4,8%, respetivamente, bem como a sua concatenação de características, na sondagem linear para perceção de cenas 3D. Com *fine-tuning* completo, o Concerto estabelece novos resultados SOTA em múltiplos *benchmarks* de compreensão de cenas (por exemplo, 80,7% mIoU no ScanNet). Apresentamos ainda uma variante do Concerto adaptada para compreensão espacial de nuvens de pontos extraídas de vídeo, e um tradutor que projeta linearmente as representações do Concerto no espaço linguístico do CLIP, permitindo perceção de mundo aberto. Estes resultados destacam que o Concerto produz representações espaciais com consistência geométrica e semântica *fine-grained* superior.
English
Humans learn abstract concepts through multisensory synergy, and once formed,
such representations can often be recalled from a single modality. Inspired by
this principle, we introduce Concerto, a minimalist simulation of human concept
learning for spatial cognition, combining 3D intra-modal self-distillation with
2D-3D cross-modal joint embedding. Despite its simplicity, Concerto learns more
coherent and informative spatial features, as demonstrated by zero-shot
visualizations. It outperforms both standalone SOTA 2D and 3D self-supervised
models by 14.2% and 4.8%, respectively, as well as their feature concatenation,
in linear probing for 3D scene perception. With full fine-tuning, Concerto sets
new SOTA results across multiple scene understanding benchmarks (e.g., 80.7%
mIoU on ScanNet). We further present a variant of Concerto tailored for
video-lifted point cloud spatial understanding, and a translator that linearly
projects Concerto representations into CLIP's language space, enabling
open-world perception. These results highlight that Concerto emerges spatial
representations with superior fine-grained geometric and semantic consistency.