ChatPaper.aiChatPaper

UPLiFT:ローカルアテンダーを用いた効率的なピクセル高密度特徴アップサンプリング

UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

January 25, 2026
著者: Matthew Walmer, Saksham Suri, Anirud Aggarwal, Abhinav Shrivastava
cs.AI

要旨

タスク非依存の特徴アップサンプリング技術は、事前学習済み視覚バックボーンから効率的に高密度な特徴を生成する有望な研究領域として登場した。これらの手法は、低解像度特徴を高解像度版に写像することを学習することで、従来手法の一部のコストで高密度特徴を実現する近道となる。初期研究では反復的アップサンプリング手法が用いられていたが、近年はクロスアテンションベースの手法へ移行しており、これらはアップサンプリング対象のバックボーンと同様の効率性スケーリング問題に陥るリスクを孕んでいる。本研究では、反復的アップサンプリング手法が依然としてクロスアテンションベース手法と競合可能であること、さらに低い推論コストで最先端の性能を達成できることを実証する。我々はUniversal Pixel-dense Lightweight Feature Transforms(UPLiFT)アーキテクチャを提案する。また、従来の反復的特徴アップサンプリング手法の限界を克服する効率的なLocal Attender演算子を提案する。この演算子は完全に局所的に定義された代替のアテンションプーリング定式化を採用する。Local AttenderによりUPLiFTはアップサンプリング過程を通じて特徴の安定性を維持し、既存のピクセル高密度特徴アップサンプラーよりも低い推論コストで最先端性能を実現できることを示す。さらに、UPLiFTを生成的ダウンストリームタスクに適用し、VAE特徴アップサンプリングにおいて最先端のCoupled Flow Matchingモデルと競合する性能を達成することを実証する。総合的に、UPLiFTは高密度特徴生成に対する汎用性と効率性を兼ね備えたアプローチを提供する。
English
The space of task-agnostic feature upsampling has emerged as a promising area of research to efficiently create denser features from pre-trained visual backbones. These methods act as a shortcut to achieve dense features for a fraction of the cost by learning to map low-resolution features to high-resolution versions. While early works in this space used iterative upsampling approaches, more recent works have switched to cross-attention-based methods, which risk falling into the same efficiency scaling problems of the backbones they are upsampling. In this work, we demonstrate that iterative upsampling methods can still compete with cross-attention-based methods; moreover, they can achieve state-of-the-art performance with lower inference costs. We propose UPLiFT, an architecture for Universal Pixel-dense Lightweight Feature Transforms. We also propose an efficient Local Attender operator to overcome the limitations of prior iterative feature upsampling methods. This operator uses an alternative attentional pooling formulation defined fully locally. We show that our Local Attender allows UPLiFT to maintain stable features throughout upsampling, enabling state-of-the-art performance with lower inference costs than existing pixel-dense feature upsamplers. In addition, we apply UPLiFT to generative downstream tasks and show that it achieves competitive performance with state-of-the-art Coupled Flow Matching models for VAE feature upsampling. Altogether, UPLiFT offers a versatile and efficient approach to creating denser features.
PDF42February 8, 2026