UPLiFT: Upsampling Efficiente e Denso a Livello di Pixel con Attentori Locali

Abstract

Lo spazio dell'upsampling di feature task-agnostic è emerso come un'area di ricerca promettente per creare efficientemente feature più dense a partire da backbone visivi pre-addestrati. Questi metodi agiscono come una scorciatoia per ottenere feature dense a una frazione del costo, apprendendo come mappare feature a bassa risoluzione in versioni ad alta risoluzione. Mentre i primi lavori in questo ambito utilizzavano approcci di upsampling iterativo, i lavori più recenti sono passati a metodi basati sul cross-attention, che rischiano di incorrere negli stessi problemi di scalabilità di efficienza dei backbone che stanno aumentando in risoluzione. In questo lavoro, dimostriamo che i metodi di upsampling iterativo possono ancora competere con quelli basati sul cross-attention; inoltre, possono raggiungere prestazioni allo stato dell'arte con costi di inferenza inferiori. Proponiamo UPLiFT, un'architettura per Trasformazioni di Feature Leggere e Dense a Livello di Pixel Universali. Proponiamo anche un efficiente operatore Local Attender per superare i limiti dei precedenti metodi di upsampling iterativo di feature. Questo operatore utilizza una formulazione alternativa di pooling attentionale definita interamente in modo locale. Mostriamo che il nostro Local Attender consente a UPLiFT di mantenere feature stabili durante tutto l'upsampling, permettendo prestazioni allo stato dell'arte con costi di inferenza inferiori rispetto agli attuali upsampler di feature dense a livello di pixel. Inoltre, applichiamo UPLiFT a task downstream generativi e mostriamo che raggiunge prestazioni competitive con i modelli Coupled Flow Matching allo stato dell'arte per l'upsampling di feature VAE. Nel complesso, UPLiFT offre un approccio versatile ed efficiente per creare feature più dense.

English

The space of task-agnostic feature upsampling has emerged as a promising area of research to efficiently create denser features from pre-trained visual backbones. These methods act as a shortcut to achieve dense features for a fraction of the cost by learning to map low-resolution features to high-resolution versions. While early works in this space used iterative upsampling approaches, more recent works have switched to cross-attention-based methods, which risk falling into the same efficiency scaling problems of the backbones they are upsampling. In this work, we demonstrate that iterative upsampling methods can still compete with cross-attention-based methods; moreover, they can achieve state-of-the-art performance with lower inference costs. We propose UPLiFT, an architecture for Universal Pixel-dense Lightweight Feature Transforms. We also propose an efficient Local Attender operator to overcome the limitations of prior iterative feature upsampling methods. This operator uses an alternative attentional pooling formulation defined fully locally. We show that our Local Attender allows UPLiFT to maintain stable features throughout upsampling, enabling state-of-the-art performance with lower inference costs than existing pixel-dense feature upsamplers. In addition, we apply UPLiFT to generative downstream tasks and show that it achieves competitive performance with state-of-the-art Coupled Flow Matching models for VAE feature upsampling. Altogether, UPLiFT offers a versatile and efficient approach to creating denser features.

UPLiFT: Upsampling Efficiente e Denso a Livello di Pixel con Attentori Locali

UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

Abstract

Support