Upsample Anything: una baseline semplice e difficile da battere per l'upsampling delle feature
Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling
November 20, 2025
Autori: Minseok Seo, Mark Hamilton, Changick Kim
cs.AI
Abstract
Presentiamo Upsample Anything, un framework leggero di ottimizzazione in fase di test (TTO) che ripristina feature a bassa risoluzione in output pixel-wise ad alta risoluzione, senza alcun addestramento. Sebbene i Vision Foundation Model dimostrino una forte generalizzazione su varie task downstream, le loro rappresentazioni sono tipicamente sottocampionate di 14x/16x (ad es. ViT), il che ne limita l'uso diretto in applicazioni a livello pixel. Gli approcci esistenti di upsampling delle feature dipendono da ri-addestramenti specifici per dataset o da pesanti ottimizzazioni implicite, limitando scalabilità e generalizzazione. Upsample Anything affronta questi problemi attraverso una semplice ottimizzazione per immagine che apprende un kernel Gaussiano anisotropo combinando cue spaziali e di range, collegando efficacemente Gaussian Splatting e Joint Bilateral Upsampling. Il kernel appreso agisce come un operatore universale e edge-aware che si trasferisce senza soluzione di continuità tra architetture e modalità, consentendo una ricostruzione precisa ad alta risoluzione di feature, mappe di profondità o mappe di probabilità. Esegue in soli circa 0,419 s per immagine 224x224 e raggiunge prestazioni state-of-the-art su segmentazione semantica, stima della profondità e upsampling sia di mappe di profondità che di probabilità. Pagina del progetto: https://seominseok0429.github.io/Upsample-Anything/
English
We present Upsample Anything, a lightweight test-time optimization (TTO) framework that restores low-resolution features to high-resolution, pixel-wise outputs without any training. Although Vision Foundation Models demonstrate strong generalization across diverse downstream tasks, their representations are typically downsampled by 14x/16x (e.g., ViT), which limits their direct use in pixel-level applications. Existing feature upsampling approaches depend on dataset-specific retraining or heavy implicit optimization, restricting scalability and generalization. Upsample Anything addresses these issues through a simple per-image optimization that learns an anisotropic Gaussian kernel combining spatial and range cues, effectively bridging Gaussian Splatting and Joint Bilateral Upsampling. The learned kernel acts as a universal, edge-aware operator that transfers seamlessly across architectures and modalities, enabling precise high-resolution reconstruction of features, depth, or probability maps. It runs in only approx0.419 s per 224x224 image and achieves state-of-the-art performance on semantic segmentation, depth estimation, and both depth and probability map upsampling. Project page: https://seominseok0429.github.io/Upsample-Anything/{https://seominseok0429.github.io/Upsample-Anything/}