Do Ideal ao Real: Predição Densa Unificada e Eficiente em Dados para Cenários do Mundo Real
From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios
June 25, 2025
Autores: Changliang Xia, Chengyou Jia, Zhuohang Dang, Minnan Luo
cs.AI
Resumo
As tarefas de predição densa têm uma importância significativa na visão computacional, visando aprender rótulos anotados pixel a pixel para uma imagem de entrada. Apesar dos avanços nessa área, os métodos existentes concentram-se principalmente em condições idealizadas, com generalização limitada para cenários do mundo real e enfrentando a desafiadora escassez de dados do mundo real. Para estudar sistematicamente esse problema, primeiro introduzimos o DenseWorld, um benchmark que abrange um amplo conjunto de 25 tarefas de predição densa que correspondem a aplicações urgentes do mundo real, apresentando avaliação unificada entre as tarefas. Em seguida, propomos o DenseDiT, que explora ao máximo os priors visuais dos modelos generativos para realizar diversas tarefas de predição densa do mundo real por meio de uma estratégia unificada. O DenseDiT combina um mecanismo de reutilização de parâmetros e dois ramos leves que integram adaptativamente o contexto multiescala, funcionando com menos de 0,1% de parâmetros adicionais. As avaliações no DenseWorld revelam quedas significativas de desempenho nas linhas de base gerais e especializadas existentes, destacando sua limitada generalização no mundo real. Em contraste, o DenseDiT alcança resultados superiores usando menos de 0,01% dos dados de treinamento das linhas de base, ressaltando seu valor prático para implantação no mundo real. Nossos dados, checkpoints e códigos estão disponíveis em https://xcltql666.github.io/DenseDiTProj.
English
Dense prediction tasks hold significant importance of computer vision, aiming
to learn pixel-wise annotated label for an input image. Despite advances in
this field, existing methods primarily focus on idealized conditions, with
limited generalization to real-world scenarios and facing the challenging
scarcity of real-world data. To systematically study this problem, we first
introduce DenseWorld, a benchmark spanning a broad set of 25 dense prediction
tasks that correspond to urgent real-world applications, featuring unified
evaluation across tasks. Then, we propose DenseDiT, which maximally exploits
generative models' visual priors to perform diverse real-world dense prediction
tasks through a unified strategy. DenseDiT combines a parameter-reuse mechanism
and two lightweight branches that adaptively integrate multi-scale context,
working with less than 0.1% additional parameters. Evaluations on DenseWorld
reveal significant performance drops in existing general and specialized
baselines, highlighting their limited real-world generalization. In contrast,
DenseDiT achieves superior results using less than 0.01% training data of
baselines, underscoring its practical value for real-world deployment. Our
data, and checkpoints and codes are available at
https://xcltql666.github.io/DenseDiTProj