ChatPaper.aiChatPaper

Do Ideal ao Real: Predição Densa Unificada e Eficiente em Dados para Cenários do Mundo Real

From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios

June 25, 2025
Autores: Changliang Xia, Chengyou Jia, Zhuohang Dang, Minnan Luo
cs.AI

Resumo

As tarefas de predição densa têm uma importância significativa na visão computacional, visando aprender rótulos anotados pixel a pixel para uma imagem de entrada. Apesar dos avanços nessa área, os métodos existentes concentram-se principalmente em condições idealizadas, com generalização limitada para cenários do mundo real e enfrentando a desafiadora escassez de dados do mundo real. Para estudar sistematicamente esse problema, primeiro introduzimos o DenseWorld, um benchmark que abrange um amplo conjunto de 25 tarefas de predição densa que correspondem a aplicações urgentes do mundo real, apresentando avaliação unificada entre as tarefas. Em seguida, propomos o DenseDiT, que explora ao máximo os priors visuais dos modelos generativos para realizar diversas tarefas de predição densa do mundo real por meio de uma estratégia unificada. O DenseDiT combina um mecanismo de reutilização de parâmetros e dois ramos leves que integram adaptativamente o contexto multiescala, funcionando com menos de 0,1% de parâmetros adicionais. As avaliações no DenseWorld revelam quedas significativas de desempenho nas linhas de base gerais e especializadas existentes, destacando sua limitada generalização no mundo real. Em contraste, o DenseDiT alcança resultados superiores usando menos de 0,01% dos dados de treinamento das linhas de base, ressaltando seu valor prático para implantação no mundo real. Nossos dados, checkpoints e códigos estão disponíveis em https://xcltql666.github.io/DenseDiTProj.
English
Dense prediction tasks hold significant importance of computer vision, aiming to learn pixel-wise annotated label for an input image. Despite advances in this field, existing methods primarily focus on idealized conditions, with limited generalization to real-world scenarios and facing the challenging scarcity of real-world data. To systematically study this problem, we first introduce DenseWorld, a benchmark spanning a broad set of 25 dense prediction tasks that correspond to urgent real-world applications, featuring unified evaluation across tasks. Then, we propose DenseDiT, which maximally exploits generative models' visual priors to perform diverse real-world dense prediction tasks through a unified strategy. DenseDiT combines a parameter-reuse mechanism and two lightweight branches that adaptively integrate multi-scale context, working with less than 0.1% additional parameters. Evaluations on DenseWorld reveal significant performance drops in existing general and specialized baselines, highlighting their limited real-world generalization. In contrast, DenseDiT achieves superior results using less than 0.01% training data of baselines, underscoring its practical value for real-world deployment. Our data, and checkpoints and codes are available at https://xcltql666.github.io/DenseDiTProj
PDF191June 30, 2025