MuRF: Desbloqueando o Potencial Multiescala de Modelos de Visão de Base

Resumo

Os Modelos de Base de Visão (VFMs) tornaram-se a pedra angular da visão computacional moderna, oferecendo representações robustas para uma ampla gama de tarefas. Embora avanços recentes permitam que esses modelos lidem com tamanhos de entrada variáveis durante o treinamento, a inferência normalmente permanece restrita a uma única escala fixa. Este paradigma predominante de escala única ignora uma propriedade fundamental da percepção visual: diferentes resoluções oferecem vieses indutivos complementares, nas quais visões de baixa resolução se destacam no reconhecimento semântico global, enquanto visões de alta resolução são essenciais para o refinamento de detalhes finos. Neste trabalho, propomos a Fusão Multi-Resolução (MuRF), uma estratégia simples, mas universalmente eficaz, para aproveitar essa sinergia no momento da inferência. Em vez de depender de uma única visão, o MuRF constrói uma representação unificada processando uma imagem em múltiplas resoluções por meio de um VFM congelado e fundindo as características resultantes. A universalidade do MuRF é o seu atributo mais convincente. Ele não está vinculado a uma arquitetura específica, servindo, em vez disso, como um aprimoramento fundamental e livre de treinamento para a representação visual. Validamos isso empiricamente aplicando o MuRF a um amplo espectro de tarefas críticas de visão computacional em várias famílias distintas de VFMs - principalmente o DINOv2, mas também demonstrando uma generalização bem-sucedida para modelos contrastivos, como o SigLIP2.

English

Vision Foundation Models (VFMs) have become the cornerstone of modern computer vision, offering robust representations across a wide array of tasks. While recent advances allow these models to handle varying input sizes during training, inference typically remains restricted to a single, fixed scale. This prevalent single-scale paradigm overlooks a fundamental property of visual perception: varying resolutions offer complementary inductive biases, where low-resolution views excel at global semantic recognition and high-resolution views are essential for fine-grained refinement. In this work, we propose Multi-Resolution Fusion (MuRF), a simple yet universally effective strategy to harness this synergy at inference time. Instead of relying on a single view, MuRF constructs a unified representation by processing an image at multiple resolutions through a frozen VFM and fusing the resulting features. The universality of MuRF is its most compelling attribute. It is not tied to a specific architecture, serving instead as a fundamental, training-free enhancement to visual representation. We empirically validate this by applying MuRF to a broad spectrum of critical computer vision tasks across multiple distinct VFM families - primarily DINOv2, but also demonstrating successful generalization to contrastive models like SigLIP2.

MuRF: Desbloqueando o Potencial Multiescala de Modelos de Visão de Base

MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

Resumo

Support