ChatPaper.aiChatPaper

JAFAR : Amplification de n'importe quelle caractéristique à n'importe quelle résolution

JAFAR: Jack up Any Feature at Any Resolution

June 10, 2025
Auteurs: Paul Couairon, Loick Chambon, Louis Serrano, Jean-Emmanuel Haugeard, Matthieu Cord, Nicolas Thome
cs.AI

Résumé

Les encodeurs de vision de base sont devenus essentiels pour une large gamme de tâches de vision dense. Cependant, leurs sorties de caractéristiques spatiales à faible résolution nécessitent un suréchantillonnage des caractéristiques pour produire les modalités à haute résolution requises pour les tâches en aval. Dans ce travail, nous présentons JAFAR, un suréchantillonneur de caractéristiques léger et flexible qui améliore la résolution spatiale des caractéristiques visuelles de tout encodeur de vision de base à une résolution cible arbitraire. JAFAR utilise un module basé sur l'attention conçu pour promouvoir l'alignement sémantique entre les requêtes à haute résolution, dérivées des caractéristiques de bas niveau de l'image, et les clés à faible résolution enrichies sémantiquement, en utilisant la modulation par transformation de caractéristiques spatiales (SFT). Notamment, malgré l'absence de supervision à haute résolution, nous démontrons que l'apprentissage à des ratios de suréchantillonnage et des résolutions faibles se généralise remarquablement bien à des échelles de sortie significativement plus élevées. Des expériences approfondies montrent que JAFAR récupère efficacement les détails spatiaux fins et surpasse systématiquement les méthodes existantes de suréchantillonnage de caractéristiques sur un ensemble diversifié de tâches en aval. Page du projet à l'adresse https://jafar-upsampler.github.io
English
Foundation Vision Encoders have become essential for a wide range of dense vision tasks. However, their low-resolution spatial feature outputs necessitate feature upsampling to produce the high-resolution modalities required for downstream tasks. In this work, we introduce JAFAR, a lightweight and flexible feature upsampler that enhances the spatial resolution of visual features from any Foundation Vision Encoder to an arbitrary target resolution. JAFAR employs an attention-based module designed to promote semantic alignment between high-resolution queries, derived from low-level image features, and semantically enriched low-resolution keys, using Spatial Feature Transform (SFT) modulation. Notably, despite the absence of high-resolution supervision, we demonstrate that learning at low upsampling ratios and resolutions generalizes remarkably well to significantly higher output scales. Extensive experiments show that JAFAR effectively recovers fine-grained spatial details and consistently outperforms existing feature upsampling methods across a diverse set of downstream tasks. Project page at https://jafar-upsampler.github.io
PDF82June 16, 2025