Uma Dieta Mista Torna o DINO um Codificador Visual Onívoro
A Mixed Diet Makes DINO An Omnivorous Vision Encoder
February 27, 2026
Autores: Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson, Ye Xia, Skanda Koppula, Andre Araujo, Joao Carreira, Niloy J. Mitra
cs.AI
Resumo
Codificadores de imagem pré-treinados como o DINOv2 demonstraram desempenho excepcional em tarefas unimodais. No entanto, observamos que as suas representações de características estão pobremente alinhadas entre diferentes modalidades. Por exemplo, a incorporação de características para uma imagem RGB e o seu mapa de profundidade correspondente da mesma cena exibem uma similaridade de cosseno quase idêntica à de duas imagens aleatórias e não relacionadas. Para resolver isto, propomos o Codificador de Visão Onívoro, uma estrutura inovadora que apreende um espaço de características agnóstico em relação à modalidade. Treinamos o codificador com um objetivo duplo: primeiro, maximizar o alinhamento de características entre diferentes modalidades da mesma cena; e segundo, um objetivo de destilação que ancora as representações aprendidas à saída de um professor completamente congelado, como o DINOv2. O codificador estudante resultante torna-se "onívoro" ao produzir uma incorporação consistente e poderosa para uma determinada cena, independentemente da modalidade de entrada (RGB, Profundidade, Segmentação, etc.). Esta abordagem permite uma compreensão multimodal robusta, mantendo a semântica discriminativa do modelo de base original.
English
Pre-trained vision encoders like DINOv2 have demonstrated exceptional performance on unimodal tasks. However, we observe that their feature representations are poorly aligned across different modalities. For instance, the feature embedding for an RGB image and its corresponding depth map of the same scene exhibit a cosine similarity that is nearly identical to that of two random, unrelated images. To address this, we propose the Omnivorous Vision Encoder, a novel framework that learns a modality-agnostic feature space. We train the encoder with a dual objective: first, to maximize the feature alignment between different modalities of the same scene; and second, a distillation objective that anchors the learned representations to the output of a fully frozen teacher such as DINOv2. The resulting student encoder becomes "omnivorous" by producing a consistent, powerful embedding for a given scene, regardless of the input modality (RGB, Depth, Segmentation, etc.). This approach enables robust cross-modal understanding while retaining the discriminative semantics of the original foundation model.