Vom Ideal zur Realität: Vereinheitlichte und dateneffiziente dichte Vorhersage für reale Anwendungsszenarien

papers.abstract

Dichte Vorhersageaufgaben haben eine bedeutende Bedeutung in der Computer Vision, da sie darauf abzielen, pixelweise annotierte Labels für ein Eingabebild zu lernen. Trotz Fortschritte in diesem Bereich konzentrieren sich bestehende Methoden hauptsächlich auf idealisierte Bedingungen, mit begrenzter Generalisierung auf reale Szenarien und der Herausforderung der knappen Verfügbarkeit von realen Daten. Um dieses Problem systematisch zu untersuchen, führen wir zunächst DenseWorld ein, einen Benchmark, der eine breite Palette von 25 dichten Vorhersageaufgaben abdeckt, die dringenden realen Anwendungen entsprechen und eine einheitliche Bewertung über Aufgaben hinweg bieten. Anschließend schlagen wir DenseDiT vor, das die visuellen Prioritäten von generativen Modellen maximal nutzt, um diverse reale dichte Vorhersageaufgaben durch eine einheitliche Strategie zu bewältigen. DenseDiT kombiniert einen Parameter-Wiederverwendungsmechanismus und zwei leichtgewichtige Zweige, die adaptiv mehrskaligen Kontext integrieren, und arbeitet mit weniger als 0,1 % zusätzlichen Parametern. Bewertungen auf DenseWorld zeigen signifikante Leistungseinbußen bei bestehenden allgemeinen und spezialisierten Baselines, was deren begrenzte reale Generalisierung unterstreicht. Im Gegensatz dazu erzielt DenseDiT überlegene Ergebnisse mit weniger als 0,01 % der Trainingsdaten der Baselines, was seinen praktischen Wert für den Einsatz in der realen Welt unterstreicht. Unsere Daten, Checkpoints und Codes sind verfügbar unter https://xcltql666.github.io/DenseDiTProj.

English

Dense prediction tasks hold significant importance of computer vision, aiming to learn pixel-wise annotated label for an input image. Despite advances in this field, existing methods primarily focus on idealized conditions, with limited generalization to real-world scenarios and facing the challenging scarcity of real-world data. To systematically study this problem, we first introduce DenseWorld, a benchmark spanning a broad set of 25 dense prediction tasks that correspond to urgent real-world applications, featuring unified evaluation across tasks. Then, we propose DenseDiT, which maximally exploits generative models' visual priors to perform diverse real-world dense prediction tasks through a unified strategy. DenseDiT combines a parameter-reuse mechanism and two lightweight branches that adaptively integrate multi-scale context, working with less than 0.1% additional parameters. Evaluations on DenseWorld reveal significant performance drops in existing general and specialized baselines, highlighting their limited real-world generalization. In contrast, DenseDiT achieves superior results using less than 0.01% training data of baselines, underscoring its practical value for real-world deployment. Our data, and checkpoints and codes are available at https://xcltql666.github.io/DenseDiTProj

Vom Ideal zur Realität: Vereinheitlichte und dateneffiziente dichte Vorhersage für reale Anwendungsszenarien

From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios

papers.abstract

Support