Смешанная диета делает DINO всеядным энкодером зрения
A Mixed Diet Makes DINO An Omnivorous Vision Encoder
February 27, 2026
Авторы: Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson, Ye Xia, Skanda Koppula, Andre Araujo, Joao Carreira, Niloy J. Mitra
cs.AI
Аннотация
Предобученные визуальные энкодеры, такие как DINOv2, продемонстрировали выдающуюся производительность на унимодальных задачах. Однако мы наблюдаем, что их признаковые представления плохо согласованы между различными модальностями. Например, косинусное сходство между признаковыми векторами RGB-изображения и соответствующей ему карты глубины одной и той же сцены оказывается почти идентичным сходству двух случайных, несвязанных изображений. Для решения этой проблемы мы предлагаем «Всеядный визуальный энкодер» — новую архитектуру, которая изучает модально-независимое признаковое пространство. Мы обучаем энкодер с двойной целью: во-первых, максимизировать согласованность признаков между разными модальностями одной сцены; и, во-вторых, с помощью задачи дистилляции закрепить полученные представления на выходе полностью замороженной модели-учителя, такой как DINOv2. В результате энкодер-ученик становится «всеядным», формируя согласованное и мощное представление для заданной сцены независимо от входной модальности (RGB, глубина, сегментация и т.д.). Данный подход обеспечивает robustное кросс-модальное понимание, сохраняя при этом дискриминативную семантику исходной базовой модели.
English
Pre-trained vision encoders like DINOv2 have demonstrated exceptional performance on unimodal tasks. However, we observe that their feature representations are poorly aligned across different modalities. For instance, the feature embedding for an RGB image and its corresponding depth map of the same scene exhibit a cosine similarity that is nearly identical to that of two random, unrelated images. To address this, we propose the Omnivorous Vision Encoder, a novel framework that learns a modality-agnostic feature space. We train the encoder with a dual objective: first, to maximize the feature alignment between different modalities of the same scene; and second, a distillation objective that anchors the learned representations to the output of a fully frozen teacher such as DINOv2. The resulting student encoder becomes "omnivorous" by producing a consistent, powerful embedding for a given scene, regardless of the input modality (RGB, Depth, Segmentation, etc.). This approach enables robust cross-modal understanding while retaining the discriminative semantics of the original foundation model.