ChatPaper.aiChatPaper

Upsample Anything : Une base simple et difficile à surpasser pour le suréchantillonnage de caractéristiques

Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling

November 20, 2025
papers.authors: Minseok Seo, Mark Hamilton, Changick Kim
cs.AI

papers.abstract

Nous présentons Upsample Anything, un cadre d'optimisation léger au moment du test (TTO) qui restaure des caractéristiques basse résolution en sorties haute résolution, pixel par pixel, sans aucun apprentissage. Bien que les modèles de fondation en vision (Vision Foundation Models) démontrent une forte généralisation sur diverses tâches en aval, leurs représentations sont généralement sous-échantillonnées par un facteur 14x/16x (par exemple, ViT), ce qui limite leur utilisation directe dans les applications au niveau du pixel. Les approches existantes de suréchantillonnage de caractéristiques dépendent d'un réentraînement spécifique à un jeu de données ou d'une optimisation implicite lourde, restreignant ainsi l'évolutivité et la généralisation. Upsample Anything résout ces problèmes grâce à une simple optimisation par image qui apprend un noyau gaussien anisotrope combinant des indices spatiaux et d'intensité, faisant efficacement le lien entre le Gaussian Splatting et le suréchantillonnage bilatéral conjoint (Joint Bilateral Upsampling). Le noyau appris agit comme un opérateur universel et sensible aux contours qui se transfère de manière transparente entre les architectures et les modalités, permettant une reconstruction haute résolution précise des caractéristiques, de la profondeur ou des cartes de probabilité. Il s'exécute en seulement environ 0,419 s par image de 224x224 et obtient des performances à l'état de l'art sur la segmentation sémantique, l'estimation de profondeur, et le suréchantillonnage des cartes de profondeur et de probabilité. Page du projet : https://seominseok0429.github.io/Upsample-Anything/
English
We present Upsample Anything, a lightweight test-time optimization (TTO) framework that restores low-resolution features to high-resolution, pixel-wise outputs without any training. Although Vision Foundation Models demonstrate strong generalization across diverse downstream tasks, their representations are typically downsampled by 14x/16x (e.g., ViT), which limits their direct use in pixel-level applications. Existing feature upsampling approaches depend on dataset-specific retraining or heavy implicit optimization, restricting scalability and generalization. Upsample Anything addresses these issues through a simple per-image optimization that learns an anisotropic Gaussian kernel combining spatial and range cues, effectively bridging Gaussian Splatting and Joint Bilateral Upsampling. The learned kernel acts as a universal, edge-aware operator that transfers seamlessly across architectures and modalities, enabling precise high-resolution reconstruction of features, depth, or probability maps. It runs in only approx0.419 s per 224x224 image and achieves state-of-the-art performance on semantic segmentation, depth estimation, and both depth and probability map upsampling. Project page: https://seominseok0429.github.io/Upsample-Anything/{https://seominseok0429.github.io/Upsample-Anything/}
PDF72February 7, 2026