MuRF: Desbloqueando el Potencial Multi-Escala de los Modelos de Base de Visión

Resumen

Los Modelos Fundacionales de Visión (VFMs) se han convertido en la piedra angular de la visión por computadora moderna, ofreciendo representaciones robustas para una amplia gama de tareas. Si bien los avances recientes permiten que estos modelos manejen tamaños de entrada variables durante el entrenamiento, la inferencia normalmente sigue restringida a una única escala fija. Este paradigma predominante de escala única pasa por alto una propiedad fundamental de la percepción visual: las diferentes resoluciones ofrecen sesgos inductivos complementarios, donde las vistas de baja resolución sobresalen en el reconocimiento semántico global y las vistas de alta resolución son esenciales para el refinamiento de detalles finos. En este trabajo, proponemos la Fusión Multi-Resolución (MuRF), una estrategia simple pero universalmente efectiva para aprovechar esta sinergia en el momento de la inferencia. En lugar de depender de una única vista, MuRF construye una representación unificada procesando una imagen a múltiples resoluciones mediante un VFM congelado y fusionando las características resultantes. La universalidad de MuRF es su atributo más convincente. No está ligado a una arquitectura específica, sino que sirve como una mejora fundamental y libre de entrenamiento para la representación visual. Validamos esto empíricamente aplicando MuRF a un amplio espectro de tareas críticas de visión por computadora en múltiples familias distintas de VFM, principalmente DINOv2, pero también demostrando una generalización exitosa a modelos contrastivos como SigLIP2.

English

Vision Foundation Models (VFMs) have become the cornerstone of modern computer vision, offering robust representations across a wide array of tasks. While recent advances allow these models to handle varying input sizes during training, inference typically remains restricted to a single, fixed scale. This prevalent single-scale paradigm overlooks a fundamental property of visual perception: varying resolutions offer complementary inductive biases, where low-resolution views excel at global semantic recognition and high-resolution views are essential for fine-grained refinement. In this work, we propose Multi-Resolution Fusion (MuRF), a simple yet universally effective strategy to harness this synergy at inference time. Instead of relying on a single view, MuRF constructs a unified representation by processing an image at multiple resolutions through a frozen VFM and fusing the resulting features. The universality of MuRF is its most compelling attribute. It is not tied to a specific architecture, serving instead as a fundamental, training-free enhancement to visual representation. We empirically validate this by applying MuRF to a broad spectrum of critical computer vision tasks across multiple distinct VFM families - primarily DINOv2, but also demonstrating successful generalization to contrastive models like SigLIP2.

MuRF: Desbloqueando el Potencial Multi-Escala de los Modelos de Base de Visión

MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

Resumen

Support