Een Gemengd Dieet Maakt DINO Tot Een Omnivore Visuele Encoder

Samenvatting

Voorgetrainde visuele encoders zoals DINOv2 hebben uitzonderlijke prestaties getoond op unimodale taken. Wij observeren echter dat hun kenmerkrepresentaties slecht zijn uitgelijnd over verschillende modaliteiten heen. Zo vertoont de kenmerkinbedding voor een RGB-afbeelding en de bijbehorende dieptekaart van dezelfde scène een cosinusgelijkenis die bijna identiek is aan die van twee willekeurige, ongerelateerde afbeeldingen. Om dit aan te pakken, stellen wij de Omnivore Visuele Encoder voor, een nieuw raamwerk dat een modaliteits-agnostische kenmerkruimte aanleert. Wij trainen de encoder met een dubbel doel: ten eerste om de kenmerkuitlijning tussen verschillende modaliteiten van dezelfde scène te maximaliseren; en ten tweede een distillatiedoel dat de aangeleerde representaties verankert aan de output van een volledig bevroren leraar, zoals DINOv2. De resulterende student-encoder wordt "omnivoor" door een consistente, krachtige inbedding te produceren voor een gegeven scène, ongeacht de invoermodaliteit (RGB, diepte, segmentatie, enz.). Deze aanpak maakt robuuste cross-modale interpretatie mogelijk, waarbij tevens de onderscheidende semantiek van het oorspronkelijke foundation-model behouden blijft.

English

Pre-trained vision encoders like DINOv2 have demonstrated exceptional performance on unimodal tasks. However, we observe that their feature representations are poorly aligned across different modalities. For instance, the feature embedding for an RGB image and its corresponding depth map of the same scene exhibit a cosine similarity that is nearly identical to that of two random, unrelated images. To address this, we propose the Omnivorous Vision Encoder, a novel framework that learns a modality-agnostic feature space. We train the encoder with a dual objective: first, to maximize the feature alignment between different modalities of the same scene; and second, a distillation objective that anchors the learned representations to the output of a fully frozen teacher such as DINOv2. The resulting student encoder becomes "omnivorous" by producing a consistent, powerful embedding for a given scene, regardless of the input modality (RGB, Depth, Segmentation, etc.). This approach enables robust cross-modal understanding while retaining the discriminative semantics of the original foundation model.

Een Gemengd Dieet Maakt DINO Tot Een Omnivore Visuele Encoder

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Samenvatting

Support