ChatPaper.aiChatPaper

理想から現実へ:実世界シナリオにおける統合的かつデータ効率的な高密度予測

From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios

June 25, 2025
著者: Changliang Xia, Chengyou Jia, Zhuohang Dang, Minnan Luo
cs.AI

要旨

高密度予測タスクは、コンピュータビジョンにおいて重要な位置を占めており、入力画像に対してピクセル単位で注釈付けされたラベルを学習することを目的としています。この分野での進展にもかかわらず、既存の手法は主に理想化された条件に焦点を当てており、現実世界のシナリオへの汎化能力が限られており、現実世界のデータの不足という課題に直面しています。この問題を体系的に研究するため、まず我々はDenseWorldを導入します。これは、緊急を要する現実世界のアプリケーションに対応する25の高密度予測タスクを網羅したベンチマークで、タスク間で統一された評価を特徴としています。次に、我々はDenseDiTを提案します。これは、生成モデルの視覚的プライアを最大限に活用し、統一された戦略を通じて多様な現実世界の高密度予測タスクを実行するものです。DenseDiTは、パラメータ再利用メカニズムと、マルチスケールのコンテキストを適応的に統合する2つの軽量なブランチを組み合わせており、追加パラメータが0.1%未満で動作します。DenseWorldでの評価により、既存の一般的および専門的なベースラインにおいて性能の大幅な低下が明らかになり、それらの現実世界への汎化能力の限界が浮き彫りになりました。対照的に、DenseDiTはベースラインの0.01%未満のトレーニングデータを使用して優れた結果を達成し、現実世界での実用価値を強調しています。我々のデータ、チェックポイント、およびコードはhttps://xcltql666.github.io/DenseDiTProjで利用可能です。
English
Dense prediction tasks hold significant importance of computer vision, aiming to learn pixel-wise annotated label for an input image. Despite advances in this field, existing methods primarily focus on idealized conditions, with limited generalization to real-world scenarios and facing the challenging scarcity of real-world data. To systematically study this problem, we first introduce DenseWorld, a benchmark spanning a broad set of 25 dense prediction tasks that correspond to urgent real-world applications, featuring unified evaluation across tasks. Then, we propose DenseDiT, which maximally exploits generative models' visual priors to perform diverse real-world dense prediction tasks through a unified strategy. DenseDiT combines a parameter-reuse mechanism and two lightweight branches that adaptively integrate multi-scale context, working with less than 0.1% additional parameters. Evaluations on DenseWorld reveal significant performance drops in existing general and specialized baselines, highlighting their limited real-world generalization. In contrast, DenseDiT achieves superior results using less than 0.01% training data of baselines, underscoring its practical value for real-world deployment. Our data, and checkpoints and codes are available at https://xcltql666.github.io/DenseDiTProj
PDF171June 30, 2025