DICEPTION: Un Modello di Diffusione Generalista per Compiti di Percezione Visiva
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks
February 24, 2025
Autori: Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen
cs.AI
Abstract
Il nostro obiettivo principale è creare un modello di percezione generale e versatile in grado di affrontare molteplici attività, rispettando i limiti delle risorse computazionali e dei dati di addestramento. Per raggiungere questo scopo, ricorriamo a modelli di diffusione testo-immagine pre-addestrati su miliardi di immagini. Le nostre metriche di valutazione esaustive dimostrano che DICEPTION affronta efficacemente molteplici compiti di percezione, raggiungendo prestazioni paragonabili ai modelli all'avanguardia. Otteniamo risultati comparabili a SAM-vit-h utilizzando solo lo 0,06% dei loro dati (ad esempio, 600K rispetto a 1B di immagini annotate a livello di pixel). Ispirati da Wang et al., DICEPTION formula gli output di vari compiti di percezione utilizzando la codifica a colori; e dimostriamo che la strategia di assegnare colori casuali a diverse istanze è altamente efficace sia nella segmentazione di entità che nella segmentazione semantica. Unificare vari compiti di percezione come generazione condizionata di immagini ci permette di sfruttare appieno i modelli testo-immagine pre-addestrati. Pertanto, DICEPTION può essere addestrato in modo efficiente a un costo di ordini di grandezza inferiore rispetto ai modelli convenzionali addestrati da zero. Quando adattiamo il nostro modello ad altre attività, richiede solo un fine-tuning su un minimo di 50 immagini e l'1% dei suoi parametri. DICEPTION offre intuizioni preziose e una soluzione più promettente per i modelli visivi generalisti.
English
Our primary goal here is to create a good, generalist perception model that
can tackle multiple tasks, within limits on computational resources and
training data. To achieve this, we resort to text-to-image diffusion models
pre-trained on billions of images. Our exhaustive evaluation metrics
demonstrate that DICEPTION effectively tackles multiple perception tasks,
achieving performance on par with state-of-the-art models. We achieve results
on par with SAM-vit-h using only 0.06% of their data (e.g., 600K vs. 1B
pixel-level annotated images). Inspired by Wang et al., DICEPTION formulates
the outputs of various perception tasks using color encoding; and we show that
the strategy of assigning random colors to different instances is highly
effective in both entity segmentation and semantic segmentation. Unifying
various perception tasks as conditional image generation enables us to fully
leverage pre-trained text-to-image models. Thus, DICEPTION can be efficiently
trained at a cost of orders of magnitude lower, compared to conventional models
that were trained from scratch. When adapting our model to other tasks, it only
requires fine-tuning on as few as 50 images and 1% of its parameters. DICEPTION
provides valuable insights and a more promising solution for visual generalist
models.Summary
AI-Generated Summary