JAFAR: Verhoog Elke Functie op Elke Resolutie
JAFAR: Jack up Any Feature at Any Resolution
June 10, 2025
Auteurs: Paul Couairon, Loick Chambon, Louis Serrano, Jean-Emmanuel Haugeard, Matthieu Cord, Nicolas Thome
cs.AI
Samenvatting
Foundation Vision Encoders zijn essentieel geworden voor een breed scala aan dichte visuele taken. Hun ruimtelijke kenmerkuitvoer met lage resolutie vereist echter een kenmerk-upsampling om de hoge-resolutiemodaliteiten te produceren die nodig zijn voor downstream taken. In dit werk introduceren we JAFAR, een lichtgewicht en flexibele kenmerk-upsampler die de ruimtelijke resolutie van visuele kenmerken van elke Foundation Vision Encoder verhoogt naar een willekeurige doelresolutie. JAFAR maakt gebruik van een op aandacht gebaseerde module die is ontworpen om semantische uitlijning te bevorderen tussen hoge-resolutie queries, afgeleid van laagniveau beeldkenmerken, en semantisch verrijkte lage-resolutie keys, met behulp van Spatial Feature Transform (SFT) modulatie. Opmerkelijk is dat, ondanks het ontbreken van hoge-resolutie supervisie, we aantonen dat leren bij lage upsampling-ratio's en resoluties opmerkelijk goed generaliseert naar aanzienlijk hogere uitvoerschalen. Uitgebreide experimenten tonen aan dat JAFAR effectief fijnmazige ruimtelijke details herstelt en consequent beter presteert dan bestaande kenmerk-upsamplingmethoden over een diverse set van downstream taken. Projectpagina op https://jafar-upsampler.github.io
English
Foundation Vision Encoders have become essential for a wide range of dense
vision tasks. However, their low-resolution spatial feature outputs necessitate
feature upsampling to produce the high-resolution modalities required for
downstream tasks. In this work, we introduce JAFAR, a lightweight and flexible
feature upsampler that enhances the spatial resolution of visual features from
any Foundation Vision Encoder to an arbitrary target resolution. JAFAR employs
an attention-based module designed to promote semantic alignment between
high-resolution queries, derived from low-level image features, and
semantically enriched low-resolution keys, using Spatial Feature Transform
(SFT) modulation. Notably, despite the absence of high-resolution supervision,
we demonstrate that learning at low upsampling ratios and resolutions
generalizes remarkably well to significantly higher output scales. Extensive
experiments show that JAFAR effectively recovers fine-grained spatial details
and consistently outperforms existing feature upsampling methods across a
diverse set of downstream tasks. Project page at
https://jafar-upsampler.github.io