ChatPaper.aiChatPaper

Модели диффузии как инструменты для добычи данных

Diffusion Models as Data Mining Tools

July 20, 2024
Авторы: Ioannis Siglidis, Aleksander Holynski, Alexei A. Efros, Mathieu Aubry, Shiry Ginosar
cs.AI

Аннотация

Этот документ демонстрирует, как использовать генеративные модели, обученные для синтеза изображений, в качестве инструментов для визуального анализа данных. Наше открытие заключается в том, что поскольку современные генеративные модели учатся точному представлению своих обучающих данных, мы можем использовать их для обобщения данных путем поиска визуальных паттернов. Конкретно, мы показываем, что после донастройки условных моделей диффузии для синтеза изображений из определенного набора данных, мы можем использовать эти модели для определения меры типичности в этом наборе данных. Эта мера оценивает, насколько типичные визуальные элементы для различных меток данных, таких как географическое местоположение, временные метки, семантические метки или даже наличие заболевания. Этот подход анализа данных через синтез имеет два ключевых преимущества. Во-первых, он масштабируется намного лучше, чем традиционные подходы на основе сопоставления, поскольку не требует явного сравнения всех пар визуальных элементов. Во-вторых, в то время как большинство предыдущих работ по визуальному анализу данных сосредотачиваются на одном наборе данных, наш подход работает с разнообразными наборами данных по содержанию и масштабу, включая исторический набор данных по автомобилям, исторический набор данных по лицам, большой мировой набор данных уличных видов и еще более крупный набор данных сцен. Более того, наш подход позволяет переводить визуальные элементы между классовыми метками и анализировать последовательные изменения.
English
This paper demonstrates how to use generative models trained for image synthesis as tools for visual data mining. Our insight is that since contemporary generative models learn an accurate representation of their training data, we can use them to summarize the data by mining for visual patterns. Concretely, we show that after finetuning conditional diffusion models to synthesize images from a specific dataset, we can use these models to define a typicality measure on that dataset. This measure assesses how typical visual elements are for different data labels, such as geographic location, time stamps, semantic labels, or even the presence of a disease. This analysis-by-synthesis approach to data mining has two key advantages. First, it scales much better than traditional correspondence-based approaches since it does not require explicitly comparing all pairs of visual elements. Second, while most previous works on visual data mining focus on a single dataset, our approach works on diverse datasets in terms of content and scale, including a historical car dataset, a historical face dataset, a large worldwide street-view dataset, and an even larger scene dataset. Furthermore, our approach allows for translating visual elements across class labels and analyzing consistent changes.

Summary

AI-Generated Summary

PDF142November 28, 2024