ChatPaper.aiChatPaper

Dall'ideale al reale: predizione densa unificata ed efficiente nei dati per scenari del mondo reale

From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios

June 25, 2025
Autori: Changliang Xia, Chengyou Jia, Zhuohang Dang, Minnan Luo
cs.AI

Abstract

I compiti di predizione densa rivestono un'importanza significativa nella visione artificiale, mirando a apprendere etichette annotate a livello di pixel per un'immagine in input. Nonostante i progressi in questo campo, i metodi esistenti si concentrano principalmente su condizioni idealizzate, con una generalizzazione limitata agli scenari del mondo reale e affrontando la sfidante scarsità di dati reali. Per studiare sistematicamente questo problema, introduciamo prima DenseWorld, un benchmark che copre un ampio insieme di 25 compiti di predizione densa corrispondenti a urgenti applicazioni del mondo reale, caratterizzato da una valutazione unificata tra i compiti. Successivamente, proponiamo DenseDiT, che sfrutta al massimo i prior visivi dei modelli generativi per eseguire vari compiti di predizione densa del mondo reale attraverso una strategia unificata. DenseDiT combina un meccanismo di riutilizzo dei parametri e due rami leggeri che integrano adattivamente il contesto multi-scala, operando con meno dello 0,1% di parametri aggiuntivi. Le valutazioni su DenseWorld rivelano significativi cali di prestazioni nei baseline generali e specializzati esistenti, evidenziando la loro limitata generalizzazione al mondo reale. Al contrario, DenseDiT ottiene risultati superiori utilizzando meno dello 0,01% dei dati di addestramento dei baseline, sottolineando il suo valore pratico per il dispiegamento nel mondo reale. I nostri dati, checkpoint e codici sono disponibili all'indirizzo https://xcltql666.github.io/DenseDiTProj.
English
Dense prediction tasks hold significant importance of computer vision, aiming to learn pixel-wise annotated label for an input image. Despite advances in this field, existing methods primarily focus on idealized conditions, with limited generalization to real-world scenarios and facing the challenging scarcity of real-world data. To systematically study this problem, we first introduce DenseWorld, a benchmark spanning a broad set of 25 dense prediction tasks that correspond to urgent real-world applications, featuring unified evaluation across tasks. Then, we propose DenseDiT, which maximally exploits generative models' visual priors to perform diverse real-world dense prediction tasks through a unified strategy. DenseDiT combines a parameter-reuse mechanism and two lightweight branches that adaptively integrate multi-scale context, working with less than 0.1% additional parameters. Evaluations on DenseWorld reveal significant performance drops in existing general and specialized baselines, highlighting their limited real-world generalization. In contrast, DenseDiT achieves superior results using less than 0.01% training data of baselines, underscoring its practical value for real-world deployment. Our data, and checkpoints and codes are available at https://xcltql666.github.io/DenseDiTProj
PDF171June 30, 2025