Modelos de Difusión como Herramientas de Minería de Datos
Diffusion Models as Data Mining Tools
July 20, 2024
Autores: Ioannis Siglidis, Aleksander Holynski, Alexei A. Efros, Mathieu Aubry, Shiry Ginosar
cs.AI
Resumen
Este documento demuestra cómo utilizar modelos generativos entrenados para la síntesis de imágenes como herramientas para la minería de datos visuales. Nuestra idea clave es que dado que los modelos generativos contemporáneos aprenden una representación precisa de sus datos de entrenamiento, podemos utilizarlos para resumir los datos mediante la búsqueda de patrones visuales. Concretamente, mostramos que después de ajustar modelos de difusión condicional para sintetizar imágenes de un conjunto de datos específico, podemos utilizar estos modelos para definir una medida de tipicidad en ese conjunto de datos. Esta medida evalúa qué tan típicos son los elementos visuales para diferentes etiquetas de datos, como la ubicación geográfica, marcas de tiempo, etiquetas semánticas o incluso la presencia de una enfermedad. Este enfoque de análisis por síntesis para la minería de datos tiene dos ventajas clave. Primero, escala mucho mejor que los enfoques tradicionales basados en correspondencias, ya que no requiere comparar explícitamente todos los pares de elementos visuales. En segundo lugar, mientras que la mayoría de los trabajos previos sobre minería de datos visuales se centran en un solo conjunto de datos, nuestro enfoque funciona en conjuntos de datos diversos en cuanto a contenido y escala, incluyendo un conjunto de datos histórico de automóviles, un conjunto de datos histórico de rostros, un extenso conjunto de datos de vistas de calles a nivel mundial y un conjunto de datos de escenas aún más grande. Además, nuestro enfoque permite traducir elementos visuales entre etiquetas de clase y analizar cambios consistentes.
English
This paper demonstrates how to use generative models trained for image
synthesis as tools for visual data mining. Our insight is that since
contemporary generative models learn an accurate representation of their
training data, we can use them to summarize the data by mining for visual
patterns. Concretely, we show that after finetuning conditional diffusion
models to synthesize images from a specific dataset, we can use these models to
define a typicality measure on that dataset. This measure assesses how typical
visual elements are for different data labels, such as geographic location,
time stamps, semantic labels, or even the presence of a disease. This
analysis-by-synthesis approach to data mining has two key advantages. First, it
scales much better than traditional correspondence-based approaches since it
does not require explicitly comparing all pairs of visual elements. Second,
while most previous works on visual data mining focus on a single dataset, our
approach works on diverse datasets in terms of content and scale, including a
historical car dataset, a historical face dataset, a large worldwide
street-view dataset, and an even larger scene dataset. Furthermore, our
approach allows for translating visual elements across class labels and
analyzing consistent changes.Summary
AI-Generated Summary