ChatPaper.aiChatPaper

Les modèles de diffusion comme outils d'exploration de données

Diffusion Models as Data Mining Tools

July 20, 2024
Auteurs: Ioannis Siglidis, Aleksander Holynski, Alexei A. Efros, Mathieu Aubry, Shiry Ginosar
cs.AI

Résumé

Cet article démontre comment utiliser des modèles génératifs entraînés pour la synthèse d'images comme outils pour l'exploration visuelle de données. Notre idée est que, puisque les modèles génératifs contemporains apprennent une représentation précise de leurs données d'entraînement, nous pouvons les utiliser pour résumer ces données en extrayant des motifs visuels. Concrètement, nous montrons qu'après avoir affiné des modèles de diffusion conditionnelle pour synthétiser des images à partir d'un ensemble de données spécifique, nous pouvons utiliser ces modèles pour définir une mesure de typicité sur cet ensemble. Cette mesure évalue à quel point les éléments visuels sont typiques pour différentes étiquettes de données, telles que la localisation géographique, les horodatages, les étiquettes sémantiques, ou même la présence d'une maladie. Cette approche d'analyse par synthèse pour l'exploration de données présente deux avantages clés. Premièrement, elle est bien plus scalable que les approches traditionnelles basées sur la correspondance, car elle ne nécessite pas de comparer explicitement toutes les paires d'éléments visuels. Deuxièmement, alors que la plupart des travaux précédents sur l'exploration visuelle de données se concentrent sur un seul ensemble de données, notre approche fonctionne sur des ensembles de données diversifiés en termes de contenu et d'échelle, incluant un ensemble de données historiques de voitures, un ensemble de données historiques de visages, un vaste ensemble de données de vues de rues à l'échelle mondiale, et un ensemble de données de scènes encore plus large. De plus, notre approche permet de traduire des éléments visuels entre différentes étiquettes de classe et d'analyser les changements cohérents.
English
This paper demonstrates how to use generative models trained for image synthesis as tools for visual data mining. Our insight is that since contemporary generative models learn an accurate representation of their training data, we can use them to summarize the data by mining for visual patterns. Concretely, we show that after finetuning conditional diffusion models to synthesize images from a specific dataset, we can use these models to define a typicality measure on that dataset. This measure assesses how typical visual elements are for different data labels, such as geographic location, time stamps, semantic labels, or even the presence of a disease. This analysis-by-synthesis approach to data mining has two key advantages. First, it scales much better than traditional correspondence-based approaches since it does not require explicitly comparing all pairs of visual elements. Second, while most previous works on visual data mining focus on a single dataset, our approach works on diverse datasets in terms of content and scale, including a historical car dataset, a historical face dataset, a large worldwide street-view dataset, and an even larger scene dataset. Furthermore, our approach allows for translating visual elements across class labels and analyzing consistent changes.

Summary

AI-Generated Summary

PDF142November 28, 2024