DICEPTIE: Een Algemeen Diffusiemodel voor Visuele Waarnemingstaken
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks
February 24, 2025
Auteurs: Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen
cs.AI
Samenvatting
Ons primaire doel hier is het creëren van een goed, generalistisch perceptiemodel dat meerdere taken aankan, binnen de grenzen van beschikbare rekenbronnen en trainingsdata. Om dit te bereiken, maken we gebruik van tekst-naar-beeld diffusiemodellen die vooraf zijn getraind op miljarden afbeeldingen. Onze uitgebreide evaluatiemetrics tonen aan dat DICEPTION effectief meerdere perceptietaken aanpakt en prestaties levert die vergelijkbaar zijn met state-of-the-art modellen. We behalen resultaten die vergelijkbaar zijn met SAM-vit-h met slechts 0,06% van hun data (bijv. 600K versus 1B pixelgeannoteerde afbeeldingen). Geïnspireerd door Wang et al. formuleert DICEPTION de uitvoer van verschillende perceptietaken met behulp van kleurcodering; en we laten zien dat de strategie van het toewijzen van willekeurige kleuren aan verschillende instanties zeer effectief is bij zowel entiteitsegmentatie als semantische segmentatie. Het verenigen van verschillende perceptietaken als conditionele beeldgeneratie stelt ons in staat om volledig gebruik te maken van vooraf getrainde tekst-naar-beeld modellen. Hierdoor kan DICEPTEN efficiënt worden getraind tegen een kostprijs die ordes van grootte lager is in vergelijking met conventionele modellen die vanaf nul zijn getraind. Bij het aanpassen van ons model aan andere taken, is alleen fine-tuning nodig op slechts 50 afbeeldingen en 1% van zijn parameters. DICEPTION biedt waardevolle inzichten en een veelbelovende oplossing voor visuele generalistische modellen.
English
Our primary goal here is to create a good, generalist perception model that
can tackle multiple tasks, within limits on computational resources and
training data. To achieve this, we resort to text-to-image diffusion models
pre-trained on billions of images. Our exhaustive evaluation metrics
demonstrate that DICEPTION effectively tackles multiple perception tasks,
achieving performance on par with state-of-the-art models. We achieve results
on par with SAM-vit-h using only 0.06% of their data (e.g., 600K vs. 1B
pixel-level annotated images). Inspired by Wang et al., DICEPTION formulates
the outputs of various perception tasks using color encoding; and we show that
the strategy of assigning random colors to different instances is highly
effective in both entity segmentation and semantic segmentation. Unifying
various perception tasks as conditional image generation enables us to fully
leverage pre-trained text-to-image models. Thus, DICEPTION can be efficiently
trained at a cost of orders of magnitude lower, compared to conventional models
that were trained from scratch. When adapting our model to other tasks, it only
requires fine-tuning on as few as 50 images and 1% of its parameters. DICEPTION
provides valuable insights and a more promising solution for visual generalist
models.Summary
AI-Generated Summary