Aufwärtsabtasten von Allem: Eine einfache und schwer zu schlagende Basis für die Merkmalsvergrößerung
Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling
November 20, 2025
papers.authors: Minseok Seo, Mark Hamilton, Changick Kim
cs.AI
papers.abstract
Wir stellen Upsample Anything vor, einen leichtgewichtigen Test-Time-Optimierung (TTO)-Ansatz, der niedrigaufgelöste Merkmale ohne jegliches Training in hochaufgelöste, pixelgenaue Ausgaben umwandelt. Obwohl Vision Foundation Models eine starke Generalisierungsfähigkeit über diverse Downstream-Aufgaben hinweg zeigen, werden ihre Repräsentationen typischerweise um den Faktor 14x/16x (z.B. bei ViT) heruntergerechnet, was ihre direkte Verwendung in pixelbasierten Anwendungen einschränkt. Bestehende Methoden zur Merkmalsvergrößerung benötigen datensatzspezifisches Neu-Training oder aufwändige implizite Optimierung, was Skalierbarkeit und Generalisierung begrenzt. Upsample Anything adressiert diese Probleme durch eine einfache pro-Bild-Optimierung, die einen anisotropen Gauß-Kernel lernt, der räumliche und Intensitätsinformationen kombiniert und so effektiv Gauß Splatting und Joint Bilateral Upsampling verbindet. Der gelernte Kernel fungiert als universeller, kantenempfindlicher Operator, der sich nahtlos über Architekturen und Modalitäten hinweg übertragen lässt und eine präzise hochaufgelöste Rekonstruktion von Merkmalen, Tiefen- oder Wahrscheinlichkeitskarten ermöglicht. Die Methode benötigt nur ca. 0,419 s pro 224x224-Bild und erzielt state-of-the-art Ergebnisse bei semantischer Segmentierung, Tiefenschätzung sowie beim Upsampling von Tiefen- und Wahrscheinlichkeitskarten. Projektseite: https://seominseok0429.github.io/Upsample-Anything/
English
We present Upsample Anything, a lightweight test-time optimization (TTO) framework that restores low-resolution features to high-resolution, pixel-wise outputs without any training. Although Vision Foundation Models demonstrate strong generalization across diverse downstream tasks, their representations are typically downsampled by 14x/16x (e.g., ViT), which limits their direct use in pixel-level applications. Existing feature upsampling approaches depend on dataset-specific retraining or heavy implicit optimization, restricting scalability and generalization. Upsample Anything addresses these issues through a simple per-image optimization that learns an anisotropic Gaussian kernel combining spatial and range cues, effectively bridging Gaussian Splatting and Joint Bilateral Upsampling. The learned kernel acts as a universal, edge-aware operator that transfers seamlessly across architectures and modalities, enabling precise high-resolution reconstruction of features, depth, or probability maps. It runs in only approx0.419 s per 224x224 image and achieves state-of-the-art performance on semantic segmentation, depth estimation, and both depth and probability map upsampling. Project page: https://seominseok0429.github.io/Upsample-Anything/{https://seominseok0429.github.io/Upsample-Anything/}