UPLiFT : Suréchantillonnage dense et efficace des caractéristiques par pixels avec des mécanismes d'attention locaux
UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders
January 25, 2026
papers.authors: Matthew Walmer, Saksham Suri, Anirud Aggarwal, Abhinav Shrivastava
cs.AI
papers.abstract
L'espace des méthodes d'augmentation de résolution de caractéristiques indépendantes de la tâche est apparu comme un domaine de recherche prometteur pour créer efficacement des caractéristiques plus denses à partir de backbone visuels pré-entraînés. Ces méthodes constituent un raccourci pour obtenir des caractéristiques denses à un coût bien inférieur, en apprenant à mapper des caractéristiques basse résolution vers des versions haute résolution. Alors que les premiers travaux dans ce domaine utilisaient des approches d'augmentation itérative, les travaux plus récents sont passés à des méthodes basées sur l'attention croisée, qui risquent de rencontrer les mêmes problèmes d'échelle d'efficacité que les backbones dont elles augmentent la résolution. Dans ce travail, nous démontrons que les méthodes d'augmentation itérative peuvent encore rivaliser avec les méthodes basées sur l'attention croisée ; de plus, elles peuvent atteindre des performances de pointe avec des coûts d'inférence plus faibles. Nous proposons UPLiFT, une architecture pour des Transformations de Caractéristiques Légères et Denses à l'échelle du Pixel Universelles. Nous proposons également un opérateur efficace, le Local Attender, pour surmonter les limitations des méthodes itératives précédentes d'augmentation de caractéristiques. Cet opérateur utilise une formulation alternative de pooling attentionnel entièrement définie localement. Nous montrons que notre Local Attender permet à UPLiFT de maintenir des caractéristiques stables tout au long de l'augmentation de résolution, permettant des performances de pointe avec des coûts d'inférence inférieurs à ceux des sur-échantillonneurs de caractéristiques denses existants. De plus, nous appliquons UPLiFT à des tâches en aval génératives et montrons qu'il atteint des performances compétitives avec les modèles de Coupled Flow Matching de pointe pour l'augmentation de résolution de caractéristiques VAE. Dans l'ensemble, UPLiFT offre une approche versatile et efficace pour créer des caractéristiques plus denses.
English
The space of task-agnostic feature upsampling has emerged as a promising area of research to efficiently create denser features from pre-trained visual backbones. These methods act as a shortcut to achieve dense features for a fraction of the cost by learning to map low-resolution features to high-resolution versions. While early works in this space used iterative upsampling approaches, more recent works have switched to cross-attention-based methods, which risk falling into the same efficiency scaling problems of the backbones they are upsampling. In this work, we demonstrate that iterative upsampling methods can still compete with cross-attention-based methods; moreover, they can achieve state-of-the-art performance with lower inference costs. We propose UPLiFT, an architecture for Universal Pixel-dense Lightweight Feature Transforms. We also propose an efficient Local Attender operator to overcome the limitations of prior iterative feature upsampling methods. This operator uses an alternative attentional pooling formulation defined fully locally. We show that our Local Attender allows UPLiFT to maintain stable features throughout upsampling, enabling state-of-the-art performance with lower inference costs than existing pixel-dense feature upsamplers. In addition, we apply UPLiFT to generative downstream tasks and show that it achieves competitive performance with state-of-the-art Coupled Flow Matching models for VAE feature upsampling. Altogether, UPLiFT offers a versatile and efficient approach to creating denser features.