Alles Opschalen: Een Eenvoudige en Moeilijk te Verslaan Basisbenadering voor Feature-upsampling
Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling
November 20, 2025
Auteurs: Minseok Seo, Mark Hamilton, Changick Kim
cs.AI
Samenvatting
Wij presenteren Upsample Anything, een lichtgewicht test-time optimalisatie (TTO) raamwerk dat laagresolutiekenmerken herstelt naar hoogresolutie, pixelgewijze uitvoer zonder enige training. Hoewel Vision Foundation Models een sterke generalisatie vertonen over diverse downstreamtaken, worden hun representaties typisch met 14x/16x verkleind (bijv. ViT), wat hun directe gebruik in pixelgebaseerde toepassingen beperkt. Bestaande benaderingen voor het vergroten van kenmerken zijn afhankelijk van datasetspecifieke hertraining of zware impliciete optimalisatie, wat de schaalbaarheid en generalisatie beperkt. Upsample Anything lost deze problemen op via een eenvoudige per-image optimalisatie die een anisotrope Gaussiaanse kernel leert, waarbij ruimtelijke en intensiteitscues worden gecombineerd, en zo effectief een brug slaat tussen Gaussian Splatting en Joint Bilateral Upsampling. De geleerde kernel fungeert als een universele, randbewuste operator die naadloos overdraagbaar is tussen architecturen en modaliteiten, en zo precieze hoogresolutie-reconstructie van kenmerken, diepte of waarschijnlijkheidskaarten mogelijk maakt. Het draait in slechts circa 0.419 s per 224x224 afbeelding en behaalt state-of-the-art prestaties op semantische segmentatie, diepteschatting, en zowel het vergroten van diepte- als waarschijnlijkheidskaarten. Projectpagina: https://seominseok0429.github.io/Upsample-Anything/
English
We present Upsample Anything, a lightweight test-time optimization (TTO) framework that restores low-resolution features to high-resolution, pixel-wise outputs without any training. Although Vision Foundation Models demonstrate strong generalization across diverse downstream tasks, their representations are typically downsampled by 14x/16x (e.g., ViT), which limits their direct use in pixel-level applications. Existing feature upsampling approaches depend on dataset-specific retraining or heavy implicit optimization, restricting scalability and generalization. Upsample Anything addresses these issues through a simple per-image optimization that learns an anisotropic Gaussian kernel combining spatial and range cues, effectively bridging Gaussian Splatting and Joint Bilateral Upsampling. The learned kernel acts as a universal, edge-aware operator that transfers seamlessly across architectures and modalities, enabling precise high-resolution reconstruction of features, depth, or probability maps. It runs in only approx0.419 s per 224x224 image and achieves state-of-the-art performance on semantic segmentation, depth estimation, and both depth and probability map upsampling. Project page: https://seominseok0429.github.io/Upsample-Anything/{https://seominseok0429.github.io/Upsample-Anything/}