ChatPaper.aiChatPaper

DICEPTION: Ein generalistisches Diffusionsmodell für visuelle Wahrnehmungsaufgaben

DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

February 24, 2025
Autoren: Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen
cs.AI

Zusammenfassung

Unser Hauptziel hier ist es, ein gutes, generalistisches Wahrnehmungsmodell zu erstellen, das mehrere Aufgaben bewältigen kann, innerhalb von Grenzen bei Rechenressourcen und Trainingsdaten. Um dies zu erreichen, greifen wir auf Text-zu-Bild-Diffusionsmodelle zurück, die auf Milliarden von Bildern vorab trainiert sind. Unsere umfassenden Evaluierungsmetriken zeigen, dass DICEPTION erfolgreich mehrere Wahrnehmungsaufgaben bewältigt und Leistungen auf Augenhöhe mit modernsten Modellen erzielt. Wir erzielen Ergebnisse auf Augenhöhe mit SAM-vit-h, wobei wir nur 0,06% ihrer Daten verwenden (z. B. 600K vs. 1 Mrd. pixelgenaue annotierte Bilder). Inspiriert von Wang et al. formuliert DICEPTION die Ausgaben verschiedener Wahrnehmungsaufgaben unter Verwendung von Farbcodierung; und wir zeigen, dass die Strategie, verschiedenen Instanzen zufällige Farben zuzuweisen, sowohl bei der Entitätssegmentierung als auch bei der semantischen Segmentierung äußerst effektiv ist. Das Vereinheitlichen verschiedener Wahrnehmungsaufgaben als bedingte Bildgenerierung ermöglicht es uns, vollständig von vorab trainierten Text-zu-Bild-Modellen zu profitieren. Somit kann DICEPTION kosteneffizient trainiert werden, wobei die Kosten um Größenordnungen niedriger sind im Vergleich zu konventionellen Modellen, die von Grund auf trainiert wurden. Bei der Anpassung unseres Modells an andere Aufgaben erfordert es nur Feinabstimmung an so wenigen wie 50 Bildern und 1% seiner Parameter. DICEPTION liefert wertvolle Einblicke und eine vielversprechendere Lösung für visuelle Generalistenmodelle.
English
Our primary goal here is to create a good, generalist perception model that can tackle multiple tasks, within limits on computational resources and training data. To achieve this, we resort to text-to-image diffusion models pre-trained on billions of images. Our exhaustive evaluation metrics demonstrate that DICEPTION effectively tackles multiple perception tasks, achieving performance on par with state-of-the-art models. We achieve results on par with SAM-vit-h using only 0.06% of their data (e.g., 600K vs. 1B pixel-level annotated images). Inspired by Wang et al., DICEPTION formulates the outputs of various perception tasks using color encoding; and we show that the strategy of assigning random colors to different instances is highly effective in both entity segmentation and semantic segmentation. Unifying various perception tasks as conditional image generation enables us to fully leverage pre-trained text-to-image models. Thus, DICEPTION can be efficiently trained at a cost of orders of magnitude lower, compared to conventional models that were trained from scratch. When adapting our model to other tasks, it only requires fine-tuning on as few as 50 images and 1% of its parameters. DICEPTION provides valuable insights and a more promising solution for visual generalist models.

Summary

AI-Generated Summary

PDF533February 25, 2025