MuRF: Sbloccare il Potenziale Multi-Scala dei Modelli di Base per la Visione
MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models
March 26, 2026
Autori: Bocheng Zou, Mu Cai, Mark Stanley, Dingfu Lu, Yong Jae Lee
cs.AI
Abstract
I Vision Foundation Model (VFM) sono diventati la pietra angolare della visione artificiale moderna, offrendo rappresentazioni robuste per una vasta gamma di compiti. Sebbene i recenti progressi consentano a questi modelli di gestire dimensioni di input variabili durante l'addestramento, l'inferenza è tipicamente limitata a una singola scala fissa. Questo paradigma prevalente a scala singola trascura una proprietà fondamentale della percezione visiva: risoluzioni diverse offrono bias induttivi complementari, per cui le viste a bassa risoluzione eccellono nel riconoscimento semantico globale, mentre le viste ad alta risoluzione sono essenziali per una raffinatura fine-grana. In questo lavoro, proponiamo la Multi-Resolution Fusion (MuRF), una strategia semplice ma universalmente efficace per sfruttare questa sinergia al momento dell'inferenza. Invece di affidarsi a una singola vista, MuRF costruisce una rappresentazione unificata elaborando un'immagine a più risoluzioni attraverso un VFM congelato e fondendo le caratteristiche risultanti. L'universalità di MuRF è il suo attributo più convincente. Non è legata a un'architettura specifica, fungendo piuttosto da miglioramento fondamentale, privo di addestramento, per la rappresentazione visiva. Convalidiamo empiricamente ciò applicando MuRF a un ampio spettro di compiti critici di visione artificiale attraverso molteplici famiglie distinte di VFM, principalmente DINOv2, ma dimostrando anche una generalizzazione di successo a modelli contrastivi come SigLIP.
English
Vision Foundation Models (VFMs) have become the cornerstone of modern computer vision, offering robust representations across a wide array of tasks. While recent advances allow these models to handle varying input sizes during training, inference typically remains restricted to a single, fixed scale. This prevalent single-scale paradigm overlooks a fundamental property of visual perception: varying resolutions offer complementary inductive biases, where low-resolution views excel at global semantic recognition and high-resolution views are essential for fine-grained refinement. In this work, we propose Multi-Resolution Fusion (MuRF), a simple yet universally effective strategy to harness this synergy at inference time. Instead of relying on a single view, MuRF constructs a unified representation by processing an image at multiple resolutions through a frozen VFM and fusing the resulting features. The universality of MuRF is its most compelling attribute. It is not tied to a specific architecture, serving instead as a fundamental, training-free enhancement to visual representation. We empirically validate this by applying MuRF to a broad spectrum of critical computer vision tasks across multiple distinct VFM families - primarily DINOv2, but also demonstrating successful generalization to contrastive models like SigLIP2.