Van ideaal naar realiteit: Geünificeerde en data-efficiënte dichte voorspelling voor realistische scenario's
From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios
June 25, 2025
Auteurs: Changliang Xia, Chengyou Jia, Zhuohang Dang, Minnan Luo
cs.AI
Samenvatting
Dichte voorspellingstaken zijn van groot belang binnen computervisie, waarbij het doel is om voor een invoerafbeelding een pixelgewijze geannoteerd label te leren. Ondanks vooruitgang in dit veld richten bestaande methoden zich voornamelijk op geïdealiseerde omstandigheden, met beperkte generalisatie naar realistische scenario's en het uitdagende gebrek aan real-world data. Om dit probleem systematisch te bestuderen, introduceren we eerst DenseWorld, een benchmark die een breed scala aan 25 dichte voorspellingstaken omvat die overeenkomen met urgente real-world toepassingen, met een uniforme evaluatie over taken. Vervolgens stellen we DenseDiT voor, dat de visuele voorkennis van generatieve modellen maximaal benut om diverse real-world dichte voorspellingstaken uit te voeren via een uniforme strategie. DenseDiT combineert een parameterhergebruikmechanisme en twee lichtgewicht takken die adaptief multi-schaal context integreren, met minder dan 0,1% extra parameters. Evaluaties op DenseWorld tonen aanzienlijke prestatieverliezen in bestaande algemene en gespecialiseerde baselines, wat hun beperkte real-world generalisatie benadrukt. Daarentegen behaalt DenseDiT superieure resultaten met minder dan 0,01% trainingsdata van de baselines, wat de praktische waarde voor real-world implementatie onderstreept. Onze data, checkpoints en codes zijn beschikbaar op https://xcltql666.github.io/DenseDiTProj.
English
Dense prediction tasks hold significant importance of computer vision, aiming
to learn pixel-wise annotated label for an input image. Despite advances in
this field, existing methods primarily focus on idealized conditions, with
limited generalization to real-world scenarios and facing the challenging
scarcity of real-world data. To systematically study this problem, we first
introduce DenseWorld, a benchmark spanning a broad set of 25 dense prediction
tasks that correspond to urgent real-world applications, featuring unified
evaluation across tasks. Then, we propose DenseDiT, which maximally exploits
generative models' visual priors to perform diverse real-world dense prediction
tasks through a unified strategy. DenseDiT combines a parameter-reuse mechanism
and two lightweight branches that adaptively integrate multi-scale context,
working with less than 0.1% additional parameters. Evaluations on DenseWorld
reveal significant performance drops in existing general and specialized
baselines, highlighting their limited real-world generalization. In contrast,
DenseDiT achieves superior results using less than 0.01% training data of
baselines, underscoring its practical value for real-world deployment. Our
data, and checkpoints and codes are available at
https://xcltql666.github.io/DenseDiTProj