Modelli di Diffusione come Strumenti di Data Mining
Diffusion Models as Data Mining Tools
July 20, 2024
Autori: Ioannis Siglidis, Aleksander Holynski, Alexei A. Efros, Mathieu Aubry, Shiry Ginosar
cs.AI
Abstract
Questo articolo dimostra come utilizzare modelli generativi addestrati per la sintesi di immagini come strumenti per il data mining visivo. La nostra intuizione è che, poiché i modelli generativi contemporanei apprendono una rappresentazione accurata dei loro dati di addestramento, possiamo utilizzarli per riassumere i dati estraendo modelli visivi. Nello specifico, mostriamo che, dopo aver affinato modelli di diffusione condizionata per sintetizzare immagini da un dataset specifico, possiamo utilizzare questi modelli per definire una misura di tipicità su tale dataset. Questa misura valuta quanto siano tipici gli elementi visivi per diverse etichette di dati, come la posizione geografica, i timestamp, le etichette semantiche o persino la presenza di una malattia. Questo approccio di analisi tramite sintesi al data mining presenta due vantaggi chiave. In primo luogo, scala molto meglio rispetto agli approcci tradizionali basati sulla corrispondenza, poiché non richiede di confrontare esplicitamente tutte le coppie di elementi visivi. In secondo luogo, mentre la maggior parte dei lavori precedenti sul data mining visivo si concentra su un singolo dataset, il nostro approccio funziona su dataset diversi in termini di contenuto e scala, inclusi un dataset storico di automobili, un dataset storico di volti, un ampio dataset mondiale di street-view e un dataset ancora più grande di scene. Inoltre, il nostro approccio consente di tradurre elementi visivi tra etichette di classe e di analizzare cambiamenti coerenti.
English
This paper demonstrates how to use generative models trained for image
synthesis as tools for visual data mining. Our insight is that since
contemporary generative models learn an accurate representation of their
training data, we can use them to summarize the data by mining for visual
patterns. Concretely, we show that after finetuning conditional diffusion
models to synthesize images from a specific dataset, we can use these models to
define a typicality measure on that dataset. This measure assesses how typical
visual elements are for different data labels, such as geographic location,
time stamps, semantic labels, or even the presence of a disease. This
analysis-by-synthesis approach to data mining has two key advantages. First, it
scales much better than traditional correspondence-based approaches since it
does not require explicitly comparing all pairs of visual elements. Second,
while most previous works on visual data mining focus on a single dataset, our
approach works on diverse datasets in terms of content and scale, including a
historical car dataset, a historical face dataset, a large worldwide
street-view dataset, and an even larger scene dataset. Furthermore, our
approach allows for translating visual elements across class labels and
analyzing consistent changes.