ChatPaper.aiChatPaper

UPLiFT: Effiziente pixel-dichte Feature-Upsampling mit lokalen Attender-Modulen

UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

January 25, 2026
papers.authors: Matthew Walmer, Saksham Suri, Anirud Aggarwal, Abhinav Shrivastava
cs.AI

papers.abstract

Der Bereich der aufgabenagnostischen Feature-Upsampling-Methoden hat sich als vielversprechendes Forschungsfeld etabliert, um effizient dichtere Features aus vortrainierten visuellen Backbones zu erzeugen. Diese Methoden dienen als Abkürzung, um dichte Features zu einem Bruchteil der Kosten zu erhalten, indem sie lernen, niedrigaufgelöste Features auf hochaufgelöste Versionen abzubilden. Während frühere Arbeiten in diesem Bereich iterative Upsampling-Ansätze verwendeten, sind neuere Arbeiten zu cross-attention-basierten Methoden übergegangen, die Gefahr laufen, in die gleichen Skalierungsprobleme hinsichtlich der Effizienz zu geraten wie die Backbones, deren Features sie hochskalieren. In dieser Arbeit zeigen wir, dass iterative Upsampling-Methoden nach wie vor mit cross-attention-basierten Methoden konkurrieren können; mehr noch, sie können State-of-the-Art-Leistung mit geringeren Inferenzkosten erzielen. Wir schlagen UPLiFT vor, eine Architektur für universelle, pixel-dichte, leichtgewichtige Feature-Transformationen. Zusätzlich schlagen wir einen effizienten Local Attender-Operator vor, um die Limitierungen früherer iterativer Feature-Upsampling-Methoden zu überwinden. Dieser Operator verwendet eine alternative Formulierung für attentionales Pooling, die vollständig lokal definiert ist. Wir zeigen, dass unser Local Attender es UPLiFT ermöglicht, stabile Features während des gesamten Upsampling-Prozesses beizubehalten, was State-of-the-Art-Leistung mit geringeren Inferenzkosten als bei bestehenden pixel-dichten Feature-Upsamplern ermöglicht. Darüber hinaus wenden wir UPLiFT auf generative Downstream-Aufgaben an und zeigen, dass es eine wettbewerbsfähige Leistung im Vergleich zu State-of-the-Art Coupled Flow Matching-Modellen für das Upsampling von VAE-Features erzielt. Zusammengenommen bietet UPLiFT einen vielseitigen und effizienten Ansatz zur Erzeugung dichterer Features.
English
The space of task-agnostic feature upsampling has emerged as a promising area of research to efficiently create denser features from pre-trained visual backbones. These methods act as a shortcut to achieve dense features for a fraction of the cost by learning to map low-resolution features to high-resolution versions. While early works in this space used iterative upsampling approaches, more recent works have switched to cross-attention-based methods, which risk falling into the same efficiency scaling problems of the backbones they are upsampling. In this work, we demonstrate that iterative upsampling methods can still compete with cross-attention-based methods; moreover, they can achieve state-of-the-art performance with lower inference costs. We propose UPLiFT, an architecture for Universal Pixel-dense Lightweight Feature Transforms. We also propose an efficient Local Attender operator to overcome the limitations of prior iterative feature upsampling methods. This operator uses an alternative attentional pooling formulation defined fully locally. We show that our Local Attender allows UPLiFT to maintain stable features throughout upsampling, enabling state-of-the-art performance with lower inference costs than existing pixel-dense feature upsamplers. In addition, we apply UPLiFT to generative downstream tasks and show that it achieves competitive performance with state-of-the-art Coupled Flow Matching models for VAE feature upsampling. Altogether, UPLiFT offers a versatile and efficient approach to creating denser features.
PDF42February 8, 2026