От идеального к реальному: унифицированный и ресурсоэффективный подход к плотному предсказанию для реальных сценариев
From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios
June 25, 2025
Авторы: Changliang Xia, Chengyou Jia, Zhuohang Dang, Minnan Luo
cs.AI
Аннотация
Задачи плотного предсказания играют важную роль в компьютерном зрении, направленные на обучение пиксельной аннотации меток для входного изображения. Несмотря на достижения в этой области, существующие методы в основном сосредоточены на идеализированных условиях, обладая ограниченной обобщаемостью для реальных сценариев и сталкиваясь с проблемой недостатка реальных данных. Для систематического изучения этой проблемы мы сначала представляем DenseWorld — эталонный набор, охватывающий широкий спектр из 25 задач плотного предсказания, соответствующих актуальным реальным приложениям, с унифицированной оценкой для всех задач. Затем мы предлагаем DenseDiT, который максимально использует визуальные априорные знания генеративных моделей для выполнения разнообразных задач плотного предсказания в реальных условиях через единую стратегию. DenseDiT сочетает механизм повторного использования параметров и два легковесных блока, которые адаптивно интегрируют контекст на разных масштабах, работая с менее чем 0,1% дополнительных параметров. Оценка на DenseWorld выявила значительное снижение производительности существующих общих и специализированных базовых методов, подчеркивая их ограниченную обобщаемость для реальных условий. В отличие от них, DenseDiT демонстрирует превосходные результаты, используя менее 0,01% обучающих данных базовых методов, что подчеркивает его практическую ценность для реального применения. Наши данные, контрольные точки и коды доступны по адресу https://xcltql666.github.io/DenseDiTProj.
English
Dense prediction tasks hold significant importance of computer vision, aiming
to learn pixel-wise annotated label for an input image. Despite advances in
this field, existing methods primarily focus on idealized conditions, with
limited generalization to real-world scenarios and facing the challenging
scarcity of real-world data. To systematically study this problem, we first
introduce DenseWorld, a benchmark spanning a broad set of 25 dense prediction
tasks that correspond to urgent real-world applications, featuring unified
evaluation across tasks. Then, we propose DenseDiT, which maximally exploits
generative models' visual priors to perform diverse real-world dense prediction
tasks through a unified strategy. DenseDiT combines a parameter-reuse mechanism
and two lightweight branches that adaptively integrate multi-scale context,
working with less than 0.1% additional parameters. Evaluations on DenseWorld
reveal significant performance drops in existing general and specialized
baselines, highlighting their limited real-world generalization. In contrast,
DenseDiT achieves superior results using less than 0.01% training data of
baselines, underscoring its practical value for real-world deployment. Our
data, and checkpoints and codes are available at
https://xcltql666.github.io/DenseDiTProj