MuRF : Exploiter le potentiel multi-échelle des modèles de fondation en vision
MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models
March 26, 2026
Auteurs: Bocheng Zou, Mu Cai, Mark Stanley, Dingfu Lu, Yong Jae Lee
cs.AI
Résumé
Les modèles de base pour la vision (VFMs) sont devenus la pierre angulaire de la vision par ordinateur moderne, offrant des représentations robustes pour une grande variété de tâches. Bien que les progrès récents permettent à ces modèles de gérer des tailles d'entrée variables pendant l'entraînement, l'inférence reste généralement limitée à une échelle unique et fixe. Ce paradigme prédominant de l'échelle unique néglige une propriété fondamentale de la perception visuelle : les résolutions variables offrent des biais inductifs complémentaires, où les vues en basse résolution excellent pour la reconnaissance sémantique globale et les vues en haute résolution sont essentielles pour un raffinement fin. Dans ce travail, nous proposons la Fusion Multi-Résolution (MuRF), une stratégie simple mais universellement efficace pour exploiter cette synergie au moment de l'inférence. Au lieu de s'appuyer sur une vue unique, MuRF construit une représentation unifiée en traitant une image à plusieurs résolutions via un VFM figé et en fusionnant les caractéristiques résultantes. L'universalité de MuRF est son attribut le plus convaincant. Elle n'est pas liée à une architecture spécifique, servant plutôt comme une amélioration fondamentale et sans entraînement pour la représentation visuelle. Nous validons empiriquement cela en appliquant MuRF à un large éventail de tâches critiques en vision par ordinateur à travers plusieurs familles distinctes de VFM - principalement DINOv2, mais en démontrant également une généralisation réussie à des modèles contrastifs comme SigLIP2.
English
Vision Foundation Models (VFMs) have become the cornerstone of modern computer vision, offering robust representations across a wide array of tasks. While recent advances allow these models to handle varying input sizes during training, inference typically remains restricted to a single, fixed scale. This prevalent single-scale paradigm overlooks a fundamental property of visual perception: varying resolutions offer complementary inductive biases, where low-resolution views excel at global semantic recognition and high-resolution views are essential for fine-grained refinement. In this work, we propose Multi-Resolution Fusion (MuRF), a simple yet universally effective strategy to harness this synergy at inference time. Instead of relying on a single view, MuRF constructs a unified representation by processing an image at multiple resolutions through a frozen VFM and fusing the resulting features. The universality of MuRF is its most compelling attribute. It is not tied to a specific architecture, serving instead as a fundamental, training-free enhancement to visual representation. We empirically validate this by applying MuRF to a broad spectrum of critical computer vision tasks across multiple distinct VFM families - primarily DINOv2, but also demonstrating successful generalization to contrastive models like SigLIP2.