MuRF: Das mehrskalige Potenzial von visuellen Foundation-Modellen erschließen

Zusammenfassung

Vision Foundation Models (VFMs) haben sich zum Eckpfeiler der modernen Computer Vision entwickelt und liefern robuste Repräsentationen für eine Vielzahl von Aufgaben. Während neuere Fortschritte es diesen Modellen ermöglichen, variable Eingabegrößen während des Trainings zu verarbeiten, ist die Inferenz typischerweise weiterhin auf eine einzelne, feste Skala beschränkt. Dieses vorherrschende Einzel-Skalen-Paradigma übersieht eine grundlegende Eigenschaft der visuellen Wahrnehmung: unterschiedliche Auflösungen bieten komplementäre induktive Verzerrungen, wobei niedrigaufgelöste Ansichten bei der globalen semantischen Erkennung hervorstechen und hochaufgelöste Ansichten für eine feinkörnige Verfeinerung unerlässlich sind. In dieser Arbeit schlagen wir Multi-Resolution Fusion (MuRF) vor, eine einfache, aber universell wirksame Strategie, um diese Synergie während der Inferenz zu nutzen. Anstatt sich auf eine einzelne Ansicht zu verlassen, konstruiert MuRF eine einheitliche Repräsentation, indem ein Bild in mehreren Auflösungen durch ein eingefrorenes VFM verarbeitet und die resultierenden Merkmale fusioniert werden. Die Universalität von MuRF ist seine überzeugendste Eigenschaft. Es ist nicht an eine spezifische Architektur gebunden, sondern dient als grundlegende, trainingsfreie Verbesserung der visuellen Repräsentation. Wir validieren dies empirisch, indem wir MuRF auf ein breites Spektrum kritischer Computer-Vision-Aufgaben über mehrere verschiedene VFM-Familien anwenden – primär DINOv2, aber auch mit erfolgreicher Verallgemeinerung auf kontrastive Modelle wie SigLIP.

English

Vision Foundation Models (VFMs) have become the cornerstone of modern computer vision, offering robust representations across a wide array of tasks. While recent advances allow these models to handle varying input sizes during training, inference typically remains restricted to a single, fixed scale. This prevalent single-scale paradigm overlooks a fundamental property of visual perception: varying resolutions offer complementary inductive biases, where low-resolution views excel at global semantic recognition and high-resolution views are essential for fine-grained refinement. In this work, we propose Multi-Resolution Fusion (MuRF), a simple yet universally effective strategy to harness this synergy at inference time. Instead of relying on a single view, MuRF constructs a unified representation by processing an image at multiple resolutions through a frozen VFM and fusing the resulting features. The universality of MuRF is its most compelling attribute. It is not tied to a specific architecture, serving instead as a fundamental, training-free enhancement to visual representation. We empirically validate this by applying MuRF to a broad spectrum of critical computer vision tasks across multiple distinct VFM families - primarily DINOv2, but also demonstrating successful generalization to contrastive models like SigLIP2.

MuRF: Das mehrskalige Potenzial von visuellen Foundation-Modellen erschließen

MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

Zusammenfassung

Support