ChatPaper.aiChatPaper

UPLiFT: Muestreo Ascendente Eficiente de Características a Nivel de Píxel con Atención Local

UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

January 25, 2026
Autores: Matthew Walmer, Saksham Suri, Anirud Aggarwal, Abhinav Shrivastava
cs.AI

Resumen

El espacio de sobremuestreo de características independiente de la tarea ha surgido como un área de investigación prometedora para crear eficientemente características más densas a partir de *backbones* visuales preentrenados. Estos métodos actúan como un atajo para lograr características densas a una fracción del costo, aprendiendo a mapear características de baja resolución a versiones de alta resolución. Si bien los primeros trabajos en este ámbito utilizaron enfoques iterativos de sobremuestreo, trabajos más recientes han cambiado a métodos basados en atención cruzada, los cuales corren el riesgo de caer en los mismos problemas de escalabilidad de eficiencia de los *backbones* que están sobremuestreando. En este trabajo, demostramos que los métodos iterativos de sobremuestreo aún pueden competir con los métodos basados en atención cruzada; además, pueden alcanzar un rendimiento de vanguardia con menores costos de inferencia. Proponemos UPLiFT, una arquitectura para Transformadas Ligeras de Características Densas a Nivel de Píxel Universales. También proponemos un operador eficiente de Atención Local para superar las limitaciones de los métodos iterativos previos de sobremuestreo de características. Este operador utiliza una formulación alternativa de agrupación atencional definida completamente de forma local. Demostramos que nuestro Atención Local permite a UPLiFT mantener características estables durante todo el sobremuestreo, logrando un rendimiento de vanguardia con costos de inferencia más bajos que los sobremuestreadores de características densas a nivel de píxel existentes. Además, aplicamos UPLiFT a tareas generativas posteriores y mostramos que logra un rendimiento competitivo con los modelos de vanguardia de Acoplamiento de Flujo para el sobremuestreo de características VAE. En conjunto, UPLiFT ofrece un enfoque versátil y eficiente para crear características más densas.
English
The space of task-agnostic feature upsampling has emerged as a promising area of research to efficiently create denser features from pre-trained visual backbones. These methods act as a shortcut to achieve dense features for a fraction of the cost by learning to map low-resolution features to high-resolution versions. While early works in this space used iterative upsampling approaches, more recent works have switched to cross-attention-based methods, which risk falling into the same efficiency scaling problems of the backbones they are upsampling. In this work, we demonstrate that iterative upsampling methods can still compete with cross-attention-based methods; moreover, they can achieve state-of-the-art performance with lower inference costs. We propose UPLiFT, an architecture for Universal Pixel-dense Lightweight Feature Transforms. We also propose an efficient Local Attender operator to overcome the limitations of prior iterative feature upsampling methods. This operator uses an alternative attentional pooling formulation defined fully locally. We show that our Local Attender allows UPLiFT to maintain stable features throughout upsampling, enabling state-of-the-art performance with lower inference costs than existing pixel-dense feature upsamplers. In addition, we apply UPLiFT to generative downstream tasks and show that it achieves competitive performance with state-of-the-art Coupled Flow Matching models for VAE feature upsampling. Altogether, UPLiFT offers a versatile and efficient approach to creating denser features.
PDF42February 8, 2026