ChatPaper.aiChatPaper

Escapando de la Caverna de Platón: Hacia la Alineación de los Espacios Latentes 3D y de Texto

Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces

March 7, 2025
Autores: Souhail Hadgi, Luca Moschella, Andrea Santilli, Diego Gomez, Qixing Huang, Emanuele Rodolà, Simone Melzi, Maks Ovsjanikov
cs.AI

Resumen

Trabajos recientes han demostrado que, cuando se entrenan a gran escala, los codificadores uni-modales de visión 2D y texto convergen en características aprendidas que comparten propiedades estructurales notables, a pesar de surgir de representaciones diferentes. Sin embargo, el papel de los codificadores 3D en relación con otras modalidades sigue sin explorarse. Además, los modelos fundacionales 3D existentes que aprovechan grandes conjuntos de datos suelen entrenarse con objetivos de alineación explícitos respecto a codificadores congelados de otras representaciones. En este trabajo, investigamos la posibilidad de una alineación a posteriori de representaciones obtenidas de codificadores uni-modales 3D en comparación con espacios de características basados en texto. Mostramos que una alineación ingenua de características post-entrenamiento de codificadores uni-modales de texto y 3D resulta en un rendimiento limitado. Luego, nos enfocamos en extraer subespacios de los espacios de características correspondientes y descubrimos que, al proyectar las representaciones aprendidas en subespacios de menor dimensión bien elegidos, la calidad de la alineación aumenta significativamente, lo que conduce a una mayor precisión en tareas de emparejamiento y recuperación. Nuestro análisis arroja más luz sobre la naturaleza de estos subespacios compartidos, que separan aproximadamente entre representaciones de datos semánticos y geométricos. En general, este es el primer trabajo que ayuda a establecer una línea base para la alineación post-entrenamiento de espacios de características uni-modales 3D y de texto, y ayuda a resaltar tanto las propiedades compartidas como las únicas de los datos 3D en comparación con otras representaciones.
English
Recent works have shown that, when trained at scale, uni-modal 2D vision and text encoders converge to learned features that share remarkable structural properties, despite arising from different representations. However, the role of 3D encoders with respect to other modalities remains unexplored. Furthermore, existing 3D foundation models that leverage large datasets are typically trained with explicit alignment objectives with respect to frozen encoders from other representations. In this work, we investigate the possibility of a posteriori alignment of representations obtained from uni-modal 3D encoders compared to text-based feature spaces. We show that naive post-training feature alignment of uni-modal text and 3D encoders results in limited performance. We then focus on extracting subspaces of the corresponding feature spaces and discover that by projecting learned representations onto well-chosen lower-dimensional subspaces the quality of alignment becomes significantly higher, leading to improved accuracy on matching and retrieval tasks. Our analysis further sheds light on the nature of these shared subspaces, which roughly separate between semantic and geometric data representations. Overall, ours is the first work that helps to establish a baseline for post-training alignment of 3D uni-modal and text feature spaces, and helps to highlight both the shared and unique properties of 3D data compared to other representations.

Summary

AI-Generated Summary

PDF32March 11, 2025