Апсемплинг чего угодно: простое и трудно превзойденное базовое решение для апсемплинга признаков
Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling
November 20, 2025
Авторы: Minseok Seo, Mark Hamilton, Changick Kim
cs.AI
Аннотация
Мы представляем Upsample Anything — легковесный фреймворк оптимизации на этапе тестирования (test-time optimization, TTO), который восстанавливает низкоразрешенные признаки до пиксельных выходов высокого разрешения без какого-либо обучения. Хотя Vision Foundation Models демонстрируют сильную обобщающую способность для разнообразных downstream-задач, их представления обычно прореживаются в 14/16 раз (например, ViT), что ограничивает их прямое использование в пиксельных приложениях. Существующие подходы к увеличению разрешения признаков зависят от переобучения на конкретных наборах данных или ресурсоемкой неявной оптимизации, что ограничивает масштабируемость и обобщение. Upsample Anything решает эти проблемы с помощью простой покартинной оптимизации, которая изучает анизотропное гауссово ядро, комбинирующее пространственные и диапазонные признаки, эффективно связывая Gaussian Splatting и Joint Bilateral Upsampling. Изученное ядро действует как универсальный, учитывающий границы оператор, который бесшовно переносится между архитектурами и модальностями, позволяя точно восстанавливать признаки, карты глубины или вероятностные карты в высоком разрешении. Фреймворк работает всего за ~0.419 с на изображение 224x224 и достигает state-of-the-art результатов в семантической сегментации, оценке глубины, а также в увеличении разрешения карт глубины и вероятностей. Страница проекта: https://seominseok0429.github.io/Upsample-Anything/.
English
We present Upsample Anything, a lightweight test-time optimization (TTO) framework that restores low-resolution features to high-resolution, pixel-wise outputs without any training. Although Vision Foundation Models demonstrate strong generalization across diverse downstream tasks, their representations are typically downsampled by 14x/16x (e.g., ViT), which limits their direct use in pixel-level applications. Existing feature upsampling approaches depend on dataset-specific retraining or heavy implicit optimization, restricting scalability and generalization. Upsample Anything addresses these issues through a simple per-image optimization that learns an anisotropic Gaussian kernel combining spatial and range cues, effectively bridging Gaussian Splatting and Joint Bilateral Upsampling. The learned kernel acts as a universal, edge-aware operator that transfers seamlessly across architectures and modalities, enabling precise high-resolution reconstruction of features, depth, or probability maps. It runs in only approx0.419 s per 224x224 image and achieves state-of-the-art performance on semantic segmentation, depth estimation, and both depth and probability map upsampling. Project page: https://seominseok0429.github.io/Upsample-Anything/{https://seominseok0429.github.io/Upsample-Anything/}