ChatPaper.aiChatPaper

Modelos de Difusão como Ferramentas de Mineração de Dados

Diffusion Models as Data Mining Tools

July 20, 2024
Autores: Ioannis Siglidis, Aleksander Holynski, Alexei A. Efros, Mathieu Aubry, Shiry Ginosar
cs.AI

Resumo

Este artigo demonstra como utilizar modelos generativos treinados para síntese de imagens como ferramentas para mineração de dados visuais. Nossa percepção é que, uma vez que os modelos generativos contemporâneos aprendem uma representação precisa de seus dados de treinamento, podemos utilizá-los para resumir os dados ao buscar padrões visuais. Concretamente, demonstramos que, após ajustar modelos de difusão condicional para sintetizar imagens de um conjunto de dados específico, podemos utilizar esses modelos para definir uma medida de tipicidade nesse conjunto de dados. Essa medida avalia quão típicos são os elementos visuais para diferentes rótulos de dados, como localização geográfica, carimbos de tempo, rótulos semânticos ou até mesmo a presença de uma doença. Esta abordagem de análise por síntese para mineração de dados apresenta duas vantagens-chave. Primeiro, ela escala muito melhor do que abordagens tradicionais baseadas em correspondência, uma vez que não requer a comparação explícita de todos os pares de elementos visuais. Segundo, enquanto a maioria dos trabalhos anteriores sobre mineração de dados visuais se concentra em um único conjunto de dados, nossa abordagem funciona em conjuntos de dados diversos em termos de conteúdo e escala, incluindo um conjunto de dados histórico de carros, um conjunto de dados histórico de rostos, um extenso conjunto de dados de visualização de ruas em todo o mundo e um conjunto de dados de cenas ainda maior. Além disso, nossa abordagem permite traduzir elementos visuais entre rótulos de classe e analisar mudanças consistentes.
English
This paper demonstrates how to use generative models trained for image synthesis as tools for visual data mining. Our insight is that since contemporary generative models learn an accurate representation of their training data, we can use them to summarize the data by mining for visual patterns. Concretely, we show that after finetuning conditional diffusion models to synthesize images from a specific dataset, we can use these models to define a typicality measure on that dataset. This measure assesses how typical visual elements are for different data labels, such as geographic location, time stamps, semantic labels, or even the presence of a disease. This analysis-by-synthesis approach to data mining has two key advantages. First, it scales much better than traditional correspondence-based approaches since it does not require explicitly comparing all pairs of visual elements. Second, while most previous works on visual data mining focus on a single dataset, our approach works on diverse datasets in terms of content and scale, including a historical car dataset, a historical face dataset, a large worldwide street-view dataset, and an even larger scene dataset. Furthermore, our approach allows for translating visual elements across class labels and analyzing consistent changes.

Summary

AI-Generated Summary

PDF142November 28, 2024