De l'idéal au réel : prédiction dense unifiée et économe en données pour des scénarios du monde réel
From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios
June 25, 2025
Auteurs: Changliang Xia, Chengyou Jia, Zhuohang Dang, Minnan Luo
cs.AI
Résumé
Les tâches de prédiction dense revêtent une importance majeure en vision par ordinateur, visant à apprendre des annotations au niveau des pixels pour une image d'entrée. Malgré les avancées dans ce domaine, les méthodes existantes se concentrent principalement sur des conditions idéalisées, avec une généralisation limitée aux scénarios réels et faisant face à la pénurie problématique de données du monde réel. Pour étudier systématiquement ce problème, nous introduisons d'abord DenseWorld, un benchmark couvrant un large ensemble de 25 tâches de prédiction dense correspondant à des applications urgentes du monde réel, avec une évaluation unifiée entre les tâches. Ensuite, nous proposons DenseDiT, qui exploite au maximum les préalables visuels des modèles génératifs pour effectuer diverses tâches de prédiction dense du monde réel à travers une stratégie unifiée. DenseDiT combine un mécanisme de réutilisation des paramètres et deux branches légères qui intègrent de manière adaptative le contexte multi-échelle, fonctionnant avec moins de 0,1 % de paramètres supplémentaires. Les évaluations sur DenseWorld révèlent des baisses significatives de performance des bases de référence générales et spécialisées existantes, mettant en évidence leur généralisation limitée au monde réel. En revanche, DenseDiT obtient des résultats supérieurs en utilisant moins de 0,01 % des données d'entraînement des bases de référence, soulignant sa valeur pratique pour un déploiement dans le monde réel. Nos données, ainsi que les points de contrôle et les codes, sont disponibles à l'adresse suivante : https://xcltql666.github.io/DenseDiTProj.
English
Dense prediction tasks hold significant importance of computer vision, aiming
to learn pixel-wise annotated label for an input image. Despite advances in
this field, existing methods primarily focus on idealized conditions, with
limited generalization to real-world scenarios and facing the challenging
scarcity of real-world data. To systematically study this problem, we first
introduce DenseWorld, a benchmark spanning a broad set of 25 dense prediction
tasks that correspond to urgent real-world applications, featuring unified
evaluation across tasks. Then, we propose DenseDiT, which maximally exploits
generative models' visual priors to perform diverse real-world dense prediction
tasks through a unified strategy. DenseDiT combines a parameter-reuse mechanism
and two lightweight branches that adaptively integrate multi-scale context,
working with less than 0.1% additional parameters. Evaluations on DenseWorld
reveal significant performance drops in existing general and specialized
baselines, highlighting their limited real-world generalization. In contrast,
DenseDiT achieves superior results using less than 0.01% training data of
baselines, underscoring its practical value for real-world deployment. Our
data, and checkpoints and codes are available at
https://xcltql666.github.io/DenseDiTProj