Una Dieta Mixta Convierte a DINO en un Codificador Visual Omnívoro

Resumen

Los codificadores de visión preentrenados como DINOv2 han demostrado un rendimiento excepcional en tareas unimodales. Sin embargo, observamos que sus representaciones de características presentan una mala alineación entre diferentes modalidades. Por ejemplo, la incrustación de características para una imagen RGB y su mapa de profundidad correspondiente de la misma escena exhibe una similitud de coseno casi idéntica a la de dos imágenes aleatorias y no relacionadas. Para abordar este problema, proponemos el Codificador de Visión Omnívoro, un marco novedoso que aprende un espacio de características independiente de la modalidad. Entrenamos el codificador con un objetivo dual: primero, maximizar la alineación de características entre diferentes modalidades de la misma escena; y segundo, un objetivo de destilación que ancla las representaciones aprendidas a la salida de un profesor completamente congelado, como DINOv2. El codificador estudiante resultante se vuelve "omnívoro" al producir una incrustación consistente y potente para una escena determinada, independientemente de la modalidad de entrada (RGB, profundidad, segmentación, etc.). Este enfoque permite una comprensión cruzada multimodal robusta mientras retiene la semántica discriminativa del modelo base original.

English

Pre-trained vision encoders like DINOv2 have demonstrated exceptional performance on unimodal tasks. However, we observe that their feature representations are poorly aligned across different modalities. For instance, the feature embedding for an RGB image and its corresponding depth map of the same scene exhibit a cosine similarity that is nearly identical to that of two random, unrelated images. To address this, we propose the Omnivorous Vision Encoder, a novel framework that learns a modality-agnostic feature space. We train the encoder with a dual objective: first, to maximize the feature alignment between different modalities of the same scene; and second, a distillation objective that anchors the learned representations to the output of a fully frozen teacher such as DINOv2. The resulting student encoder becomes "omnivorous" by producing a consistent, powerful embedding for a given scene, regardless of the input modality (RGB, Depth, Segmentation, etc.). This approach enables robust cross-modal understanding while retaining the discriminative semantics of the original foundation model.

Una Dieta Mixta Convierte a DINO en un Codificador Visual Omnívoro

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Resumen

Support