ChatPaper.aiChatPaper

De l'idéal au réel : prédiction dense unifiée et économe en données pour des scénarios du monde réel

From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios

June 25, 2025
Auteurs: Changliang Xia, Chengyou Jia, Zhuohang Dang, Minnan Luo
cs.AI

Résumé

Les tâches de prédiction dense revêtent une importance majeure en vision par ordinateur, visant à apprendre des annotations au niveau des pixels pour une image d'entrée. Malgré les avancées dans ce domaine, les méthodes existantes se concentrent principalement sur des conditions idéalisées, avec une généralisation limitée aux scénarios réels et faisant face à la pénurie problématique de données du monde réel. Pour étudier systématiquement ce problème, nous introduisons d'abord DenseWorld, un benchmark couvrant un large ensemble de 25 tâches de prédiction dense correspondant à des applications urgentes du monde réel, avec une évaluation unifiée entre les tâches. Ensuite, nous proposons DenseDiT, qui exploite au maximum les préalables visuels des modèles génératifs pour effectuer diverses tâches de prédiction dense du monde réel à travers une stratégie unifiée. DenseDiT combine un mécanisme de réutilisation des paramètres et deux branches légères qui intègrent de manière adaptative le contexte multi-échelle, fonctionnant avec moins de 0,1 % de paramètres supplémentaires. Les évaluations sur DenseWorld révèlent des baisses significatives de performance des bases de référence générales et spécialisées existantes, mettant en évidence leur généralisation limitée au monde réel. En revanche, DenseDiT obtient des résultats supérieurs en utilisant moins de 0,01 % des données d'entraînement des bases de référence, soulignant sa valeur pratique pour un déploiement dans le monde réel. Nos données, ainsi que les points de contrôle et les codes, sont disponibles à l'adresse suivante : https://xcltql666.github.io/DenseDiTProj.
English
Dense prediction tasks hold significant importance of computer vision, aiming to learn pixel-wise annotated label for an input image. Despite advances in this field, existing methods primarily focus on idealized conditions, with limited generalization to real-world scenarios and facing the challenging scarcity of real-world data. To systematically study this problem, we first introduce DenseWorld, a benchmark spanning a broad set of 25 dense prediction tasks that correspond to urgent real-world applications, featuring unified evaluation across tasks. Then, we propose DenseDiT, which maximally exploits generative models' visual priors to perform diverse real-world dense prediction tasks through a unified strategy. DenseDiT combines a parameter-reuse mechanism and two lightweight branches that adaptively integrate multi-scale context, working with less than 0.1% additional parameters. Evaluations on DenseWorld reveal significant performance drops in existing general and specialized baselines, highlighting their limited real-world generalization. In contrast, DenseDiT achieves superior results using less than 0.01% training data of baselines, underscoring its practical value for real-world deployment. Our data, and checkpoints and codes are available at https://xcltql666.github.io/DenseDiTProj
PDF171June 30, 2025