DICEPTION: Un Modello di Diffusione Generalista per Compiti di Percezione Visiva

Abstract

Il nostro obiettivo principale è creare un modello di percezione generale e versatile in grado di affrontare molteplici attività, rispettando i limiti delle risorse computazionali e dei dati di addestramento. Per raggiungere questo scopo, ricorriamo a modelli di diffusione testo-immagine pre-addestrati su miliardi di immagini. Le nostre metriche di valutazione esaustive dimostrano che DICEPTION affronta efficacemente molteplici compiti di percezione, raggiungendo prestazioni paragonabili ai modelli all'avanguardia. Otteniamo risultati comparabili a SAM-vit-h utilizzando solo lo 0,06% dei loro dati (ad esempio, 600K rispetto a 1B di immagini annotate a livello di pixel). Ispirati da Wang et al., DICEPTION formula gli output di vari compiti di percezione utilizzando la codifica a colori; e dimostriamo che la strategia di assegnare colori casuali a diverse istanze è altamente efficace sia nella segmentazione di entità che nella segmentazione semantica. Unificare vari compiti di percezione come generazione condizionata di immagini ci permette di sfruttare appieno i modelli testo-immagine pre-addestrati. Pertanto, DICEPTION può essere addestrato in modo efficiente a un costo di ordini di grandezza inferiore rispetto ai modelli convenzionali addestrati da zero. Quando adattiamo il nostro modello ad altre attività, richiede solo un fine-tuning su un minimo di 50 immagini e l'1% dei suoi parametri. DICEPTION offre intuizioni preziose e una soluzione più promettente per i modelli visivi generalisti.

English

Our primary goal here is to create a good, generalist perception model that can tackle multiple tasks, within limits on computational resources and training data. To achieve this, we resort to text-to-image diffusion models pre-trained on billions of images. Our exhaustive evaluation metrics demonstrate that DICEPTION effectively tackles multiple perception tasks, achieving performance on par with state-of-the-art models. We achieve results on par with SAM-vit-h using only 0.06% of their data (e.g., 600K vs. 1B pixel-level annotated images). Inspired by Wang et al., DICEPTION formulates the outputs of various perception tasks using color encoding; and we show that the strategy of assigning random colors to different instances is highly effective in both entity segmentation and semantic segmentation. Unifying various perception tasks as conditional image generation enables us to fully leverage pre-trained text-to-image models. Thus, DICEPTION can be efficiently trained at a cost of orders of magnitude lower, compared to conventional models that were trained from scratch. When adapting our model to other tasks, it only requires fine-tuning on as few as 50 images and 1% of its parameters. DICEPTION provides valuable insights and a more promising solution for visual generalist models.

DICEPTION: Un Modello di Diffusione Generalista per Compiti di Percezione Visiva

DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

Abstract

Support