MuRF: Раскрытие многомасштабного потенциала базовых моделей компьютерного зрения

Аннотация

Модели-основы компьютерного зрения (Vision Foundation Models, VFMs) стали краеугольным камнем современной компьютерной зрения, обеспечивая надежные представления для широкого спектра задач. Хотя последние достижения позволяют этим моделям обрабатывать входные данные переменного размера во время обучения, вывод, как правило, остается ограниченным одним фиксированным масштабом. Эта преобладающая одномасштабная парадигма игнорирует фундаментальное свойство зрительного восприятия: различные разрешения предлагают комплементарные индуктивные смещения, при которых низкое разрешение превосходно для глобального семантического распознавания, а высокое разрешение необходимо для тонкой, детализированной доработки. В данной работе мы предлагаем Multi-Resolution Fusion (MuRF) — простую, но универсально эффективную стратегию для использования этой синергии на этапе вывода. Вместо reliance на единое представление, MuRF строит унифицированное представление, обрабатывая изображение в нескольких разрешениях с помощью замороженной VFM и объединяя результирующие признаки. Универсальность MuRF является его наиболее compelling атрибутом. Она не привязана к конкретной архитектуре, выступая в качестве фундаментального улучшения визуального представления, не требующего дообучения. Мы эмпирически подтверждаем это, применяя MuRF к широкому спектру ключевых задач компьютерного зрения в рамках нескольких различных семейств VFM — в первую очередь DINOv2, но также демонстрируя успешное обобщение на контрастивные модели, такие как SigLIP2.

English

Vision Foundation Models (VFMs) have become the cornerstone of modern computer vision, offering robust representations across a wide array of tasks. While recent advances allow these models to handle varying input sizes during training, inference typically remains restricted to a single, fixed scale. This prevalent single-scale paradigm overlooks a fundamental property of visual perception: varying resolutions offer complementary inductive biases, where low-resolution views excel at global semantic recognition and high-resolution views are essential for fine-grained refinement. In this work, we propose Multi-Resolution Fusion (MuRF), a simple yet universally effective strategy to harness this synergy at inference time. Instead of relying on a single view, MuRF constructs a unified representation by processing an image at multiple resolutions through a frozen VFM and fusing the resulting features. The universality of MuRF is its most compelling attribute. It is not tied to a specific architecture, serving instead as a fundamental, training-free enhancement to visual representation. We empirically validate this by applying MuRF to a broad spectrum of critical computer vision tasks across multiple distinct VFM families - primarily DINOv2, but also demonstrating successful generalization to contrastive models like SigLIP2.

MuRF: Раскрытие многомасштабного потенциала базовых моделей компьютерного зрения

MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

Аннотация

Support