JAFAR: Jede Funktion bei jeder Auflösung anheben
JAFAR: Jack up Any Feature at Any Resolution
June 10, 2025
Autoren: Paul Couairon, Loick Chambon, Louis Serrano, Jean-Emmanuel Haugeard, Matthieu Cord, Nicolas Thome
cs.AI
Zusammenfassung
Foundation Vision Encoder haben sich als unverzichtbar für eine Vielzahl von dichten Vision-Aufgaben etabliert. Allerdings erfordern ihre niedrigauflösenden räumlichen Merkmalsausgaben ein Upsampling der Merkmale, um die hochauflösenden Modalitäten zu erzeugen, die für nachgelagerte Aufgaben benötigt werden. In dieser Arbeit stellen wir JAFAR vor, einen leichten und flexiblen Merkmals-Upsampler, der die räumliche Auflösung von visuellen Merkmalen aus jedem Foundation Vision Encoder auf eine beliebige Zielauflösung erhöht. JAFAR verwendet ein auf Aufmerksamkeit basierendes Modul, das darauf abzielt, die semantische Ausrichtung zwischen hochauflösenden Abfragen, die aus niedrigstufigen Bildmerkmalen abgeleitet werden, und semantisch angereicherten niedrigauflösenden Schlüsseln mithilfe von Spatial Feature Transform (SFT)-Modulation zu fördern. Bemerkenswerterweise zeigen wir, dass das Lernen bei niedrigen Upsampling-Verhältnissen und Auflösungen trotz des Fehlens von hochauflösender Überwachung bemerkenswert gut auf deutlich höhere Ausgabeskalen verallgemeinert. Umfangreiche Experimente zeigen, dass JAFAR feinkörnige räumliche Details effektiv wiederherstellt und bestehende Methoden zum Merkmals-Upsampling in einer Vielzahl von nachgelagerten Aufgaben konsequent übertrifft. Projektseite unter https://jafar-upsampler.github.io.
English
Foundation Vision Encoders have become essential for a wide range of dense
vision tasks. However, their low-resolution spatial feature outputs necessitate
feature upsampling to produce the high-resolution modalities required for
downstream tasks. In this work, we introduce JAFAR, a lightweight and flexible
feature upsampler that enhances the spatial resolution of visual features from
any Foundation Vision Encoder to an arbitrary target resolution. JAFAR employs
an attention-based module designed to promote semantic alignment between
high-resolution queries, derived from low-level image features, and
semantically enriched low-resolution keys, using Spatial Feature Transform
(SFT) modulation. Notably, despite the absence of high-resolution supervision,
we demonstrate that learning at low upsampling ratios and resolutions
generalizes remarkably well to significantly higher output scales. Extensive
experiments show that JAFAR effectively recovers fine-grained spatial details
and consistently outperforms existing feature upsampling methods across a
diverse set of downstream tasks. Project page at
https://jafar-upsampler.github.io