Un régime mixte fait de DINO un encodeur visuel omnivore
A Mixed Diet Makes DINO An Omnivorous Vision Encoder
February 27, 2026
Auteurs: Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson, Ye Xia, Skanda Koppula, Andre Araujo, Joao Carreira, Niloy J. Mitra
cs.AI
Résumé
Les encodeurs visuels pré-entraînés comme DINOv2 ont démontré des performances exceptionnelles sur des tâches unimodales. Cependant, nous observons que leurs représentations de caractéristiques sont faiblement alignées entre les différentes modalités. Par exemple, l'incorporation de caractéristiques d'une image RVB et de sa carte de profondeur correspondante d'une même scène présente une similarité cosinus quasi identique à celle de deux images aléatoires et non liées. Pour remédier à cela, nous proposons l'Encodeur Vision Omnivore, un nouveau cadre d'apprentissage qui acquiert un espace de caractéristiques agnostique à la modalité. Nous entraînons l'encodeur avec un double objectif : premièrement, maximiser l'alignement des caractéristiques entre les différentes modalités d'une même scène ; et deuxièmement, un objectif de distillation qui ancre les représentations apprises à la sortie d'un enseignant entièrement figé tel que DINOv2. L'encodeur étudiant résultant devient « omnivore » en produisant une incorporation cohérente et puissante pour une scène donnée, quelle que soit la modalité d'entrée (RVB, profondeur, segmentation, etc.). Cette approche permet une compréhension multimodale robuste tout en conservant la sémantique discriminative du modèle de fondation original.
English
Pre-trained vision encoders like DINOv2 have demonstrated exceptional performance on unimodal tasks. However, we observe that their feature representations are poorly aligned across different modalities. For instance, the feature embedding for an RGB image and its corresponding depth map of the same scene exhibit a cosine similarity that is nearly identical to that of two random, unrelated images. To address this, we propose the Omnivorous Vision Encoder, a novel framework that learns a modality-agnostic feature space. We train the encoder with a dual objective: first, to maximize the feature alignment between different modalities of the same scene; and second, a distillation objective that anchors the learned representations to the output of a fully frozen teacher such as DINOv2. The resulting student encoder becomes "omnivorous" by producing a consistent, powerful embedding for a given scene, regardless of the input modality (RGB, Depth, Segmentation, etc.). This approach enables robust cross-modal understanding while retaining the discriminative semantics of the original foundation model.