DICEPTION: Ein generalistisches Diffusionsmodell für visuelle Wahrnehmungsaufgaben
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks
February 24, 2025
Autoren: Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen
cs.AI
Zusammenfassung
Unser Hauptziel hier ist es, ein gutes, generalistisches Wahrnehmungsmodell zu erstellen, das mehrere Aufgaben bewältigen kann, innerhalb von Grenzen bei Rechenressourcen und Trainingsdaten. Um dies zu erreichen, greifen wir auf Text-zu-Bild-Diffusionsmodelle zurück, die auf Milliarden von Bildern vorab trainiert sind. Unsere umfassenden Evaluierungsmetriken zeigen, dass DICEPTION erfolgreich mehrere Wahrnehmungsaufgaben bewältigt und Leistungen auf Augenhöhe mit modernsten Modellen erzielt. Wir erzielen Ergebnisse auf Augenhöhe mit SAM-vit-h, wobei wir nur 0,06% ihrer Daten verwenden (z. B. 600K vs. 1 Mrd. pixelgenaue annotierte Bilder). Inspiriert von Wang et al. formuliert DICEPTION die Ausgaben verschiedener Wahrnehmungsaufgaben unter Verwendung von Farbcodierung; und wir zeigen, dass die Strategie, verschiedenen Instanzen zufällige Farben zuzuweisen, sowohl bei der Entitätssegmentierung als auch bei der semantischen Segmentierung äußerst effektiv ist. Das Vereinheitlichen verschiedener Wahrnehmungsaufgaben als bedingte Bildgenerierung ermöglicht es uns, vollständig von vorab trainierten Text-zu-Bild-Modellen zu profitieren. Somit kann DICEPTION kosteneffizient trainiert werden, wobei die Kosten um Größenordnungen niedriger sind im Vergleich zu konventionellen Modellen, die von Grund auf trainiert wurden. Bei der Anpassung unseres Modells an andere Aufgaben erfordert es nur Feinabstimmung an so wenigen wie 50 Bildern und 1% seiner Parameter. DICEPTION liefert wertvolle Einblicke und eine vielversprechendere Lösung für visuelle Generalistenmodelle.
English
Our primary goal here is to create a good, generalist perception model that
can tackle multiple tasks, within limits on computational resources and
training data. To achieve this, we resort to text-to-image diffusion models
pre-trained on billions of images. Our exhaustive evaluation metrics
demonstrate that DICEPTION effectively tackles multiple perception tasks,
achieving performance on par with state-of-the-art models. We achieve results
on par with SAM-vit-h using only 0.06% of their data (e.g., 600K vs. 1B
pixel-level annotated images). Inspired by Wang et al., DICEPTION formulates
the outputs of various perception tasks using color encoding; and we show that
the strategy of assigning random colors to different instances is highly
effective in both entity segmentation and semantic segmentation. Unifying
various perception tasks as conditional image generation enables us to fully
leverage pre-trained text-to-image models. Thus, DICEPTION can be efficiently
trained at a cost of orders of magnitude lower, compared to conventional models
that were trained from scratch. When adapting our model to other tasks, it only
requires fine-tuning on as few as 50 images and 1% of its parameters. DICEPTION
provides valuable insights and a more promising solution for visual generalist
models.Summary
AI-Generated Summary