Eine gemischte Ernährung macht DINO zu einem omnivoren Vision-Encoder

Zusammenfassung

Vortrainierte Vision-Encoder wie DINOv2 haben außergewöhnliche Leistungen bei unimodalen Aufgaben gezeigt. Wir stellen jedoch fest, dass ihre Merkmalsrepräsentationen nur geringfügig über verschiedene Modalitäten hinweg ausgerichtet sind. So weist beispielsweise die Merkmalseinbettung eines RGB-Bildes und der entsprechenden Tiefenkarte derselben Szene eine Kosinus-Ähnlichkeit auf, die nahezu identisch mit der von zwei zufälligen, unzusammenhängenden Bildern ist. Um dieses Problem zu lösen, schlagen wir den Omnivoren Vision-Encoder vor, ein neuartiges Framework, das einen modalitätsunabhängigen Merkmalsraum erlernt. Wir trainieren den Encoder mit einem dualen Ziel: erstens, die Merkmalsausrichtung zwischen verschiedenen Modalitäten derselben Szene zu maximieren; und zweitens, ein Distillationsziel, das die gelernten Repräsentationen an die Ausgabe eines vollständig eingefrorenen Teacher-Modells wie DINOv2 bindet. Der resultierende Student-Encoder wird "omnivor", indem er für eine gegebene Szene eine konsistente, leistungsstarke Einbettung erzeugt – unabhängig von der Eingabemodalität (RGB, Tiefe, Segmentierung etc.). Dieser Ansatz ermöglicht ein robustes cross-modales Verständnis, während die diskriminative Semantik des ursprünglichen Foundation-Modells beibehalten wird.

English

Pre-trained vision encoders like DINOv2 have demonstrated exceptional performance on unimodal tasks. However, we observe that their feature representations are poorly aligned across different modalities. For instance, the feature embedding for an RGB image and its corresponding depth map of the same scene exhibit a cosine similarity that is nearly identical to that of two random, unrelated images. To address this, we propose the Omnivorous Vision Encoder, a novel framework that learns a modality-agnostic feature space. We train the encoder with a dual objective: first, to maximize the feature alignment between different modalities of the same scene; and second, a distillation objective that anchors the learned representations to the output of a fully frozen teacher such as DINOv2. The resulting student encoder becomes "omnivorous" by producing a consistent, powerful embedding for a given scene, regardless of the input modality (RGB, Depth, Segmentation, etc.). This approach enables robust cross-modal understanding while retaining the discriminative semantics of the original foundation model.

Eine gemischte Ernährung macht DINO zu einem omnivoren Vision-Encoder

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Zusammenfassung

Support