Concierto: El aprendizaje autónomo conjunto 2D-3D emerge representaciones espaciales
Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
October 27, 2025
Autores: Yujia Zhang, Xiaoyang Wu, Yixing Lao, Chengyao Wang, Zhuotao Tian, Naiyan Wang, Hengshuang Zhao
cs.AI
Resumen
Los seres humanos aprenden conceptos abstractos mediante sinergia multisensorial, y una vez formadas, estas representaciones pueden recuperarse a menudo desde una sola modalidad. Inspirándonos en este principio, presentamos Concerto, una simulación minimalista del aprendizaje humano de conceptos para la cognición espacial, que combina la auto-distilación intramodal 3D con un espacio de embedding conjunto cross-modal 2D-3D. A pesar de su simplicidad, Concerto aprende características espaciales más coherentes e informativas, como demuestran las visualizaciones zero-shot. Supera a los modelos auto-supervisados SOTA 2D y 3D independientes en un 14.2% y 4.8%, respectivamente, así como a su concatenación de características, en la evaluación lineal para percepción de escenas 3D. Con fine-tuning completo, Concerto establece nuevos resultados SOTA en múltiples benchmarks de comprensión de escenas (por ejemplo, 80.7% mIoU en ScanNet). Además, presentamos una variante de Concerto adaptada para la comprensión espacial de nubes de puntos extraídas de vídeo, y un traductor que proyecta linealmente las representaciones de Concerto en el espacio lingüístico de CLIP, permitiendo la percepción de mundo abierto. Estos resultados destacan que Concerto genera representaciones espaciales con una consistencia geométrica y semántica de grano fino superior.
English
Humans learn abstract concepts through multisensory synergy, and once formed,
such representations can often be recalled from a single modality. Inspired by
this principle, we introduce Concerto, a minimalist simulation of human concept
learning for spatial cognition, combining 3D intra-modal self-distillation with
2D-3D cross-modal joint embedding. Despite its simplicity, Concerto learns more
coherent and informative spatial features, as demonstrated by zero-shot
visualizations. It outperforms both standalone SOTA 2D and 3D self-supervised
models by 14.2% and 4.8%, respectively, as well as their feature concatenation,
in linear probing for 3D scene perception. With full fine-tuning, Concerto sets
new SOTA results across multiple scene understanding benchmarks (e.g., 80.7%
mIoU on ScanNet). We further present a variant of Concerto tailored for
video-lifted point cloud spatial understanding, and a translator that linearly
projects Concerto representations into CLIP's language space, enabling
open-world perception. These results highlight that Concerto emerges spatial
representations with superior fine-grained geometric and semantic consistency.