ChatPaper.aiChatPaper

Diffusiemodellen als Data Mining-instrumenten

Diffusion Models as Data Mining Tools

July 20, 2024
Auteurs: Ioannis Siglidis, Aleksander Holynski, Alexei A. Efros, Mathieu Aubry, Shiry Ginosar
cs.AI

Samenvatting

Dit artikel demonstreert hoe generatieve modellen die zijn getraind voor beeld-synthese kunnen worden gebruikt als hulpmiddelen voor visuele data mining. Ons inzicht is dat, aangezien hedendaagse generatieve modellen een nauwkeurige representatie van hun trainingsdata leren, we deze kunnen gebruiken om de data samen te vatten door te zoeken naar visuele patronen. Concreet laten we zien dat na het finetunen van conditionele diffusiemodellen om beelden te synthetiseren vanuit een specifieke dataset, we deze modellen kunnen gebruiken om een typiciteitsmaat te definiëren voor die dataset. Deze maat beoordeelt hoe typisch visuele elementen zijn voor verschillende datalabels, zoals geografische locatie, tijdstempels, semantische labels, of zelfs de aanwezigheid van een ziekte. Deze analyse-door-synthese benadering van data mining heeft twee belangrijke voordelen. Ten eerste schaalt het veel beter dan traditionele op correspondentie gebaseerde benaderingen, omdat het niet vereist om alle paren van visuele elementen expliciet te vergelijken. Ten tweede, terwijl de meeste eerdere werken over visuele data mining zich richten op een enkele dataset, werkt onze benadering op diverse datasets in termen van inhoud en schaal, waaronder een historische auto-dataset, een historische gezichten-dataset, een grote wereldwijde straatbeeld-dataset, en een nog grotere scène-dataset. Bovendien maakt onze benadering het mogelijk om visuele elementen te vertalen tussen klasse-labels en consistente veranderingen te analyseren.
English
This paper demonstrates how to use generative models trained for image synthesis as tools for visual data mining. Our insight is that since contemporary generative models learn an accurate representation of their training data, we can use them to summarize the data by mining for visual patterns. Concretely, we show that after finetuning conditional diffusion models to synthesize images from a specific dataset, we can use these models to define a typicality measure on that dataset. This measure assesses how typical visual elements are for different data labels, such as geographic location, time stamps, semantic labels, or even the presence of a disease. This analysis-by-synthesis approach to data mining has two key advantages. First, it scales much better than traditional correspondence-based approaches since it does not require explicitly comparing all pairs of visual elements. Second, while most previous works on visual data mining focus on a single dataset, our approach works on diverse datasets in terms of content and scale, including a historical car dataset, a historical face dataset, a large worldwide street-view dataset, and an even larger scene dataset. Furthermore, our approach allows for translating visual elements across class labels and analyzing consistent changes.
PDF152February 8, 2026