ChatPaper.aiChatPaper

UPLiFT: 로컬 어텐더를 활용한 효율적인 픽셀 밀집 특징 업샘플링

UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

January 25, 2026
저자: Matthew Walmer, Saksham Suri, Anirud Aggarwal, Abhinav Shrivastava
cs.AI

초록

작업 독립적인 특징 업샘플링 분야는 사전 학습된 시각적 백본으로부터 효율적으로 더 밀집된 특징을 생성하기 위한 유망한 연구 영역으로 부상했습니다. 이러한 방법들은 저해상도 특징을 고해상도 버전으로 매핑하는 방법을 학습함으로써 훨씬 낮은 비용으로 밀집 특징을 달성하는 지름길 역할을 합니다. 해당 분야의 초기 연구들은 반복적 업샘플링 접근법을 사용했으나, 최근 연구들은 교차 주의 기반 방법으로 전환되었으며, 이는 업샘플링 대상 백본과 동일한 효율성 확장 문제에 빠질 위험이 있습니다. 본 연구에서는 반복적 업샘플링 방법이 여전히 교차 주의 기반 방법과 경쟁할 수 있음을 입증하고, 더 나아가 더 낮은 추론 비용으로 최첨단 성능을 달성할 수 있음을 보여줍니다. 우리는 범용 픽셀 밀집 경량 특징 변환 아키텍처인 UPLiFT를 제안합니다. 또한 기존 반복적 특징 업샘플링 방법의 한계를 극복하기 위한 효율적인 지역 주의 연산자(Local Attender)를 제안합니다. 이 연산자는 완전히 지역적으로 정의된 대체 주의 풀링 공식을 사용합니다. 우리의 지역 주의 연산자가 UPLiFT가 업샘플링 전반에 걸쳐 안정적인 특징을 유지하도록 하여, 기존 픽셀 밀집 특징 업샘플러보다 낮은 추론 비용으로 최첨단 성능을 가능하게 함을 보여줍니다. 또한 UPLiFT를 생성형 하위 작업에 적용하여 VAE 특징 업샘플링을 위한 최첨단 결합 흐름 매칭 모델들과 경쟁력 있는 성능을 달성함을 확인합니다. 종합적으로, UPLiFT는 더 밀집된 특징을 생성하는 다목적이면서 효율적인 접근법을 제공합니다.
English
The space of task-agnostic feature upsampling has emerged as a promising area of research to efficiently create denser features from pre-trained visual backbones. These methods act as a shortcut to achieve dense features for a fraction of the cost by learning to map low-resolution features to high-resolution versions. While early works in this space used iterative upsampling approaches, more recent works have switched to cross-attention-based methods, which risk falling into the same efficiency scaling problems of the backbones they are upsampling. In this work, we demonstrate that iterative upsampling methods can still compete with cross-attention-based methods; moreover, they can achieve state-of-the-art performance with lower inference costs. We propose UPLiFT, an architecture for Universal Pixel-dense Lightweight Feature Transforms. We also propose an efficient Local Attender operator to overcome the limitations of prior iterative feature upsampling methods. This operator uses an alternative attentional pooling formulation defined fully locally. We show that our Local Attender allows UPLiFT to maintain stable features throughout upsampling, enabling state-of-the-art performance with lower inference costs than existing pixel-dense feature upsamplers. In addition, we apply UPLiFT to generative downstream tasks and show that it achieves competitive performance with state-of-the-art Coupled Flow Matching models for VAE feature upsampling. Altogether, UPLiFT offers a versatile and efficient approach to creating denser features.
PDF42February 8, 2026