ChatPaper.aiChatPaper

Quantos Van Goghs são necessários para Van Goghar? Encontrando o Limiar de Imitação

How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold

October 19, 2024
Autores: Sahil Verma, Royi Rassin, Arnav Das, Gantavya Bhatt, Preethi Seshadri, Chirag Shah, Jeff Bilmes, Hannaneh Hajishirzi, Yanai Elazar
cs.AI

Resumo

Modelos de texto para imagem são treinados usando grandes conjuntos de dados coletados por raspagem de pares de imagem-texto da internet. Esses conjuntos de dados frequentemente incluem material privado, protegido por direitos autorais e licenciado. Treinar modelos com tais conjuntos de dados permite que eles gerem imagens com esse conteúdo, o que pode violar leis de direitos autorais e privacidade individual. Esse fenômeno é denominado imitação - geração de imagens com conteúdo que possui similaridade reconhecível com suas imagens de treinamento. Neste trabalho, estudamos a relação entre a frequência de um conceito no conjunto de dados de treinamento e a capacidade de um modelo imitá-lo. Buscamos determinar o ponto em que um modelo foi treinado com instâncias suficientes para imitar um conceito - o limiar de imitação. Colocamos essa questão como um novo problema: Encontrar o Limiar de Imitação (FIT) e propomos uma abordagem eficiente que estima o limiar de imitação sem incorrer no custo colossal de treinar vários modelos do zero. Experimentamos com dois domínios - rostos humanos e estilos de arte - para os quais criamos quatro conjuntos de dados e avaliamos três modelos de texto para imagem que foram treinados em dois conjuntos de dados de pré-treinamento. Nossos resultados revelam que o limiar de imitação desses modelos está na faixa de 200-600 imagens, dependendo do domínio e do modelo. O limiar de imitação pode fornecer uma base empírica para reivindicações de violação de direitos autorais e atua como um princípio orientador para desenvolvedores de modelos de texto para imagem que visam cumprir as leis de direitos autorais e privacidade. Disponibilizamos o código e os dados em https://github.com/vsahil/MIMETIC-2.git e o site do projeto está hospedado em https://how-many-van-goghs-does-it-take.github.io.
English
Text-to-image models are trained using large datasets collected by scraping image-text pairs from the internet. These datasets often include private, copyrighted, and licensed material. Training models on such datasets enables them to generate images with such content, which might violate copyright laws and individual privacy. This phenomenon is termed imitation -- generation of images with content that has recognizable similarity to its training images. In this work we study the relationship between a concept's frequency in the training dataset and the ability of a model to imitate it. We seek to determine the point at which a model was trained on enough instances to imitate a concept -- the imitation threshold. We posit this question as a new problem: Finding the Imitation Threshold (FIT) and propose an efficient approach that estimates the imitation threshold without incurring the colossal cost of training multiple models from scratch. We experiment with two domains -- human faces and art styles -- for which we create four datasets, and evaluate three text-to-image models which were trained on two pretraining datasets. Our results reveal that the imitation threshold of these models is in the range of 200-600 images, depending on the domain and the model. The imitation threshold can provide an empirical basis for copyright violation claims and acts as a guiding principle for text-to-image model developers that aim to comply with copyright and privacy laws. We release the code and data at https://github.com/vsahil/MIMETIC-2.git and the project's website is hosted at https://how-many-van-goghs-does-it-take.github.io.

Summary

AI-Generated Summary

PDF63November 16, 2024