ChatPaper.aiChatPaper

UPLiFT: Эффективное плотное повышение разрешения признаков с помощью локальных аттендеров

UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

January 25, 2026
Авторы: Matthew Walmer, Saksham Suri, Anirud Aggarwal, Abhinav Shrivastava
cs.AI

Аннотация

Пространство задач, связанных с агностическим апсемплингом признаков, стало перспективной областью исследований, направленной на эффективное создание более плотных признаков из предварительно обученных визуальных моделей. Эти методы служат сокращённым путём для получения плотных признаков с гораздо меньшими затратами, обучаясь отображать низкоразрешенные признаки в их высокоразрешенные версии. В то время как ранние работы в этой области использовали итеративные подходы к апсемплингу, более поздние исследования перешли к методам на основе кросс-внимания, которые рискуют столкнуться с теми же проблемами масштабируемости эффективности, что и исходные модели, признаки которых они повышают. В данной работе мы показываем, что итеративные методы апсемплинга всё ещё могут конкурировать с методами на основе кросс-внимания; более того, они способны достигать передовых результатов при более низких вычислительных затратах на вывод. Мы предлагаем UPLiFT — архитектуру для Универсальных Пиксельно-плотных Облегчённых Преобразований Признаков. Также мы предлагаем эффективный оператор Локального Аттендера для преодоления ограничений предыдущих итеративных методов апсемплинга признаков. Этот оператор использует альтернативную формулировку аттеншн-пулинга, полностью определённую на локальной области. Мы демонстрируем, что наш Локальный Аттендер позволяет UPLiFT сохранять стабильность признаков на протяжении всего процесса апсемплинга, обеспечивая передовую производительность при более низких затратах на вывод по сравнению с существующими пиксельно-плотными апсемплерами признаков. Кроме того, мы применяем UPLiFT к генеративным задачам и показываем, что он достигает конкурентоспособных результатов с современными моделями Сопряжённого Согласования Потоков для апсемплинга признаков VAE. В целом, UPLiFT предлагает универсальный и эффективный подход к созданию более плотных признаков.
English
The space of task-agnostic feature upsampling has emerged as a promising area of research to efficiently create denser features from pre-trained visual backbones. These methods act as a shortcut to achieve dense features for a fraction of the cost by learning to map low-resolution features to high-resolution versions. While early works in this space used iterative upsampling approaches, more recent works have switched to cross-attention-based methods, which risk falling into the same efficiency scaling problems of the backbones they are upsampling. In this work, we demonstrate that iterative upsampling methods can still compete with cross-attention-based methods; moreover, they can achieve state-of-the-art performance with lower inference costs. We propose UPLiFT, an architecture for Universal Pixel-dense Lightweight Feature Transforms. We also propose an efficient Local Attender operator to overcome the limitations of prior iterative feature upsampling methods. This operator uses an alternative attentional pooling formulation defined fully locally. We show that our Local Attender allows UPLiFT to maintain stable features throughout upsampling, enabling state-of-the-art performance with lower inference costs than existing pixel-dense feature upsamplers. In addition, we apply UPLiFT to generative downstream tasks and show that it achieves competitive performance with state-of-the-art Coupled Flow Matching models for VAE feature upsampling. Altogether, UPLiFT offers a versatile and efficient approach to creating denser features.
PDF42February 8, 2026