Upsample Anything: Uma Linha de Base Simples e Difícil de Superar para Amostragem Ascendente de Características
Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling
November 20, 2025
Autores: Minseok Seo, Mark Hamilton, Changick Kim
cs.AI
Resumo
Apresentamos o Upsample Anything, um framework leve de otimização em tempo de teste (TTO) que restaura características de baixa resolução para saídas de alta resolução a nível de pixel, sem qualquer treinamento. Embora os Modelos de Base de Visão demonstrem forte generalização em diversas tarefas subsequentes, as suas representações são tipicamente reduzidas por um fator de 14x/16x (ex.: ViT), o que limita o seu uso direto em aplicações a nível de pixel. As abordagens existentes de *upsampling* de características dependem de retreinamento específico por conjunto de dados ou de uma pesada otimização implícita, restringindo a escalabilidade e a generalização. O Upsample Anything resolve estas questões através de uma simples otimização por imagem que aprende um núcleo Gaussiano anisotrópico que combina pistas espaciais e de alcance, ligando eficazmente o *Gaussian Splatting* e o *Joint Bilateral Upsampling*. O núcleo aprendido atua como um operador universal e consciente de bordas que se transfere perfeitamente entre arquiteturas e modalidades, permitindo uma reconstrução precisa de alta resolução de características, profundidade ou mapas de probabilidade. Executa em apenas aproximadamente 0,419 s por imagem de 224x224 e alcança um desempenho de ponta em segmentação semântica, estimativa de profundidade e *upsampling* de mapas de profundidade e de probabilidade. Página do projeto: https://seominseok0429.github.io/Upsample-Anything/
English
We present Upsample Anything, a lightweight test-time optimization (TTO) framework that restores low-resolution features to high-resolution, pixel-wise outputs without any training. Although Vision Foundation Models demonstrate strong generalization across diverse downstream tasks, their representations are typically downsampled by 14x/16x (e.g., ViT), which limits their direct use in pixel-level applications. Existing feature upsampling approaches depend on dataset-specific retraining or heavy implicit optimization, restricting scalability and generalization. Upsample Anything addresses these issues through a simple per-image optimization that learns an anisotropic Gaussian kernel combining spatial and range cues, effectively bridging Gaussian Splatting and Joint Bilateral Upsampling. The learned kernel acts as a universal, edge-aware operator that transfers seamlessly across architectures and modalities, enabling precise high-resolution reconstruction of features, depth, or probability maps. It runs in only approx0.419 s per 224x224 image and achieves state-of-the-art performance on semantic segmentation, depth estimation, and both depth and probability map upsampling. Project page: https://seominseok0429.github.io/Upsample-Anything/{https://seominseok0429.github.io/Upsample-Anything/}