Vom Ideal zur Realität: Vereinheitlichte und dateneffiziente dichte Vorhersage für reale Anwendungsszenarien
From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios
June 25, 2025
Autoren: Changliang Xia, Chengyou Jia, Zhuohang Dang, Minnan Luo
cs.AI
Zusammenfassung
Dichte Vorhersageaufgaben haben eine bedeutende Bedeutung in der Computer Vision, da sie darauf abzielen, pixelweise annotierte Labels für ein Eingabebild zu lernen. Trotz Fortschritte in diesem Bereich konzentrieren sich bestehende Methoden hauptsächlich auf idealisierte Bedingungen, mit begrenzter Generalisierung auf reale Szenarien und der Herausforderung der knappen Verfügbarkeit von realen Daten. Um dieses Problem systematisch zu untersuchen, führen wir zunächst DenseWorld ein, einen Benchmark, der eine breite Palette von 25 dichten Vorhersageaufgaben abdeckt, die dringenden realen Anwendungen entsprechen und eine einheitliche Bewertung über Aufgaben hinweg bieten. Anschließend schlagen wir DenseDiT vor, das die visuellen Prioritäten von generativen Modellen maximal nutzt, um diverse reale dichte Vorhersageaufgaben durch eine einheitliche Strategie zu bewältigen. DenseDiT kombiniert einen Parameter-Wiederverwendungsmechanismus und zwei leichtgewichtige Zweige, die adaptiv mehrskaligen Kontext integrieren, und arbeitet mit weniger als 0,1 % zusätzlichen Parametern. Bewertungen auf DenseWorld zeigen signifikante Leistungseinbußen bei bestehenden allgemeinen und spezialisierten Baselines, was deren begrenzte reale Generalisierung unterstreicht. Im Gegensatz dazu erzielt DenseDiT überlegene Ergebnisse mit weniger als 0,01 % der Trainingsdaten der Baselines, was seinen praktischen Wert für den Einsatz in der realen Welt unterstreicht. Unsere Daten, Checkpoints und Codes sind verfügbar unter https://xcltql666.github.io/DenseDiTProj.
English
Dense prediction tasks hold significant importance of computer vision, aiming
to learn pixel-wise annotated label for an input image. Despite advances in
this field, existing methods primarily focus on idealized conditions, with
limited generalization to real-world scenarios and facing the challenging
scarcity of real-world data. To systematically study this problem, we first
introduce DenseWorld, a benchmark spanning a broad set of 25 dense prediction
tasks that correspond to urgent real-world applications, featuring unified
evaluation across tasks. Then, we propose DenseDiT, which maximally exploits
generative models' visual priors to perform diverse real-world dense prediction
tasks through a unified strategy. DenseDiT combines a parameter-reuse mechanism
and two lightweight branches that adaptively integrate multi-scale context,
working with less than 0.1% additional parameters. Evaluations on DenseWorld
reveal significant performance drops in existing general and specialized
baselines, highlighting their limited real-world generalization. In contrast,
DenseDiT achieves superior results using less than 0.01% training data of
baselines, underscoring its practical value for real-world deployment. Our
data, and checkpoints and codes are available at
https://xcltql666.github.io/DenseDiTProj