UPLiFT: Upsampling Eficiente de Características com Densidade de Pixels usando Atendedores Locais

Resumo

O espaço de upsampling de características independente da tarefa emergiu como uma área promissora de pesquisa para criar eficientemente características mais densas a partir de backbones visuais pré-treinados. Estes métodos funcionam como um atalho para obter características densas a uma fração do custo, aprendendo a mapear características de baixa resolução para versões de alta resolução. Enquanto os trabalhos iniciais nesta área utilizaram abordagens iterativas de upsampling, trabalhos mais recentes mudaram para métodos baseados em cross-attention, que correm o risco de cair nos mesmos problemas de escalabilidade de eficiência dos backbones que estão a ser ampliados. Neste trabalho, demonstramos que os métodos iterativos de upsampling ainda podem competir com os métodos baseados em cross-attention; além disso, podem alcançar desempenho de última geração com custos de inferência mais baixos. Propomos o UPLiFT, uma arquitetura para Transformações Leves de Características com Densidade Pixel Universal. Também propomos um operador eficiente de Atendimento Local (Local Attender) para superar as limitações dos métodos iterativos anteriores de upsampling de características. Este operador utiliza uma formulação alternativa de attentional pooling definida inteiramente de forma local. Mostramos que o nosso Local Attender permite ao UPLiFT manter características estáveis durante todo o upsampling, permitindo um desempenho de última geração com custos de inferência mais baixos do que os existentes ampliadores de características com densidade pixel. Além disso, aplicamos o UPLiFT a tarefas generativas subsequentes e mostramos que ele alcança um desempenho competitivo com os modelos de última geração de Coupled Flow Matching para upsampling de características VAE. No total, o UPLiFT oferece uma abordagem versátil e eficiente para criar características mais densas.

English

The space of task-agnostic feature upsampling has emerged as a promising area of research to efficiently create denser features from pre-trained visual backbones. These methods act as a shortcut to achieve dense features for a fraction of the cost by learning to map low-resolution features to high-resolution versions. While early works in this space used iterative upsampling approaches, more recent works have switched to cross-attention-based methods, which risk falling into the same efficiency scaling problems of the backbones they are upsampling. In this work, we demonstrate that iterative upsampling methods can still compete with cross-attention-based methods; moreover, they can achieve state-of-the-art performance with lower inference costs. We propose UPLiFT, an architecture for Universal Pixel-dense Lightweight Feature Transforms. We also propose an efficient Local Attender operator to overcome the limitations of prior iterative feature upsampling methods. This operator uses an alternative attentional pooling formulation defined fully locally. We show that our Local Attender allows UPLiFT to maintain stable features throughout upsampling, enabling state-of-the-art performance with lower inference costs than existing pixel-dense feature upsamplers. In addition, we apply UPLiFT to generative downstream tasks and show that it achieves competitive performance with state-of-the-art Coupled Flow Matching models for VAE feature upsampling. Altogether, UPLiFT offers a versatile and efficient approach to creating denser features.

UPLiFT: Upsampling Eficiente de Características com Densidade de Pixels usando Atendedores Locais

UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

Resumo

Support