Van ideaal naar realiteit: Geünificeerde en data-efficiënte dichte voorspelling voor realistische scenario's

Samenvatting

Dichte voorspellingstaken zijn van groot belang binnen computervisie, waarbij het doel is om voor een invoerafbeelding een pixelgewijze geannoteerd label te leren. Ondanks vooruitgang in dit veld richten bestaande methoden zich voornamelijk op geïdealiseerde omstandigheden, met beperkte generalisatie naar realistische scenario's en het uitdagende gebrek aan real-world data. Om dit probleem systematisch te bestuderen, introduceren we eerst DenseWorld, een benchmark die een breed scala aan 25 dichte voorspellingstaken omvat die overeenkomen met urgente real-world toepassingen, met een uniforme evaluatie over taken. Vervolgens stellen we DenseDiT voor, dat de visuele voorkennis van generatieve modellen maximaal benut om diverse real-world dichte voorspellingstaken uit te voeren via een uniforme strategie. DenseDiT combineert een parameterhergebruikmechanisme en twee lichtgewicht takken die adaptief multi-schaal context integreren, met minder dan 0,1% extra parameters. Evaluaties op DenseWorld tonen aanzienlijke prestatieverliezen in bestaande algemene en gespecialiseerde baselines, wat hun beperkte real-world generalisatie benadrukt. Daarentegen behaalt DenseDiT superieure resultaten met minder dan 0,01% trainingsdata van de baselines, wat de praktische waarde voor real-world implementatie onderstreept. Onze data, checkpoints en codes zijn beschikbaar op https://xcltql666.github.io/DenseDiTProj.

English

Dense prediction tasks hold significant importance of computer vision, aiming to learn pixel-wise annotated label for an input image. Despite advances in this field, existing methods primarily focus on idealized conditions, with limited generalization to real-world scenarios and facing the challenging scarcity of real-world data. To systematically study this problem, we first introduce DenseWorld, a benchmark spanning a broad set of 25 dense prediction tasks that correspond to urgent real-world applications, featuring unified evaluation across tasks. Then, we propose DenseDiT, which maximally exploits generative models' visual priors to perform diverse real-world dense prediction tasks through a unified strategy. DenseDiT combines a parameter-reuse mechanism and two lightweight branches that adaptively integrate multi-scale context, working with less than 0.1% additional parameters. Evaluations on DenseWorld reveal significant performance drops in existing general and specialized baselines, highlighting their limited real-world generalization. In contrast, DenseDiT achieves superior results using less than 0.01% training data of baselines, underscoring its practical value for real-world deployment. Our data, and checkpoints and codes are available at https://xcltql666.github.io/DenseDiTProj

Van ideaal naar realiteit: Geünificeerde en data-efficiënte dichte voorspelling voor realistische scenario's

From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios

Samenvatting

Support