Upsample Anything: Una Línea Base Simple y Difícil de Superar para el Remuestreo de Características
Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling
November 20, 2025
Autores: Minseok Seo, Mark Hamilton, Changick Kim
cs.AI
Resumen
Presentamos Upsample Anything, un marco de optimización en tiempo de prueba (TTO) ligero que restaura características de baja resolución a salidas de alta resolución a nivel de píxel, sin necesidad de entrenamiento alguno. Aunque los Modelos Fundacionales de Visión demuestran una fuerte generalización en diversas tareas descendentes, sus representaciones suelen ser submuestreadas por 14x/16x (por ejemplo, ViT), lo que limita su uso directo en aplicaciones a nivel de píxel. Los enfoques existentes de sobremuestreo de características dependen de reentrenamiento específico por conjunto de datos o de una optimización implícita pesada, lo que restringe la escalabilidad y la generalización. Upsample Anything aborda estos problemas mediante una simple optimización por imagen que aprende un núcleo gaussiano anisotrópico que combina pistas espaciales y de rango, conectando efectivamente el Gaussian Splatting y el Sobremuestreo Bilateral Conjunto. El núcleo aprendido actúa como un operador universal y consciente de los bordes que se transfiere sin problemas entre arquitecturas y modalidades, permitiendo una reconstrucción precisa de alta resolución de características, mapas de profundidad o mapas de probabilidad. Se ejecuta en solo aprox. 0.419 s por imagen de 224x224 y logra un rendimiento de vanguardia en segmentación semántica, estimación de profundidad y sobremuestreo tanto de mapas de profundidad como de probabilidad. Página del proyecto: https://seominseok0429.github.io/Upsample-Anything/
English
We present Upsample Anything, a lightweight test-time optimization (TTO) framework that restores low-resolution features to high-resolution, pixel-wise outputs without any training. Although Vision Foundation Models demonstrate strong generalization across diverse downstream tasks, their representations are typically downsampled by 14x/16x (e.g., ViT), which limits their direct use in pixel-level applications. Existing feature upsampling approaches depend on dataset-specific retraining or heavy implicit optimization, restricting scalability and generalization. Upsample Anything addresses these issues through a simple per-image optimization that learns an anisotropic Gaussian kernel combining spatial and range cues, effectively bridging Gaussian Splatting and Joint Bilateral Upsampling. The learned kernel acts as a universal, edge-aware operator that transfers seamlessly across architectures and modalities, enabling precise high-resolution reconstruction of features, depth, or probability maps. It runs in only approx0.419 s per 224x224 image and achieves state-of-the-art performance on semantic segmentation, depth estimation, and both depth and probability map upsampling. Project page: https://seominseok0429.github.io/Upsample-Anything/{https://seominseok0429.github.io/Upsample-Anything/}