Les modèles de diffusion comme outils d'exploration de données
Diffusion Models as Data Mining Tools
July 20, 2024
Auteurs: Ioannis Siglidis, Aleksander Holynski, Alexei A. Efros, Mathieu Aubry, Shiry Ginosar
cs.AI
Résumé
Cet article démontre comment utiliser des modèles génératifs entraînés pour la synthèse d'images comme outils pour l'exploration visuelle de données. Notre idée est que, puisque les modèles génératifs contemporains apprennent une représentation précise de leurs données d'entraînement, nous pouvons les utiliser pour résumer ces données en extrayant des motifs visuels. Concrètement, nous montrons qu'après avoir affiné des modèles de diffusion conditionnelle pour synthétiser des images à partir d'un ensemble de données spécifique, nous pouvons utiliser ces modèles pour définir une mesure de typicité sur cet ensemble. Cette mesure évalue à quel point les éléments visuels sont typiques pour différentes étiquettes de données, telles que la localisation géographique, les horodatages, les étiquettes sémantiques, ou même la présence d'une maladie. Cette approche d'analyse par synthèse pour l'exploration de données présente deux avantages clés. Premièrement, elle est bien plus scalable que les approches traditionnelles basées sur la correspondance, car elle ne nécessite pas de comparer explicitement toutes les paires d'éléments visuels. Deuxièmement, alors que la plupart des travaux précédents sur l'exploration visuelle de données se concentrent sur un seul ensemble de données, notre approche fonctionne sur des ensembles de données diversifiés en termes de contenu et d'échelle, incluant un ensemble de données historiques de voitures, un ensemble de données historiques de visages, un vaste ensemble de données de vues de rues à l'échelle mondiale, et un ensemble de données de scènes encore plus large. De plus, notre approche permet de traduire des éléments visuels entre différentes étiquettes de classe et d'analyser les changements cohérents.
English
This paper demonstrates how to use generative models trained for image
synthesis as tools for visual data mining. Our insight is that since
contemporary generative models learn an accurate representation of their
training data, we can use them to summarize the data by mining for visual
patterns. Concretely, we show that after finetuning conditional diffusion
models to synthesize images from a specific dataset, we can use these models to
define a typicality measure on that dataset. This measure assesses how typical
visual elements are for different data labels, such as geographic location,
time stamps, semantic labels, or even the presence of a disease. This
analysis-by-synthesis approach to data mining has two key advantages. First, it
scales much better than traditional correspondence-based approaches since it
does not require explicitly comparing all pairs of visual elements. Second,
while most previous works on visual data mining focus on a single dataset, our
approach works on diverse datasets in terms of content and scale, including a
historical car dataset, a historical face dataset, a large worldwide
street-view dataset, and an even larger scene dataset. Furthermore, our
approach allows for translating visual elements across class labels and
analyzing consistent changes.Summary
AI-Generated Summary