Quanti Van Gogh servono per fare un Van Gogh? Trovare la soglia di imitazione.
How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold
October 19, 2024
Autori: Sahil Verma, Royi Rassin, Arnav Das, Gantavya Bhatt, Preethi Seshadri, Chirag Shah, Jeff Bilmes, Hannaneh Hajishirzi, Yanai Elazar
cs.AI
Abstract
I modelli di testo-immagine vengono addestrati utilizzando ampi set di dati raccolti raschiando coppie immagine-testo da Internet. Questi set di dati spesso includono materiale privato, protetto da copyright e con licenza. Addestrare i modelli su tali set di dati consente loro di generare immagini con tale contenuto, il che potrebbe violare le leggi sul copyright e la privacy individuale. Questo fenomeno è definito imitazione - la generazione di immagini con contenuti che presentano una somiglianza riconoscibile con le immagini di addestramento. In questo lavoro studiamo la relazione tra la frequenza di un concetto nel set di dati di addestramento e la capacità di un modello di imitarlo. Cerchiamo di determinare il punto in cui un modello è stato addestrato su un numero sufficiente di istanze per imitare un concetto - la soglia di imitazione. Poniamo questa domanda come un nuovo problema: Trovare la Soglia di Imitazione (FIT) e proponiamo un approccio efficiente che stima la soglia di imitazione senza incorrere nel costo colossale di addestrare più modelli da zero. Sperimentiamo con due domini - volti umani e stili artistici - per i quali creiamo quattro set di dati e valutiamo tre modelli di testo-immagine addestrati su due set di dati di preaddestramento. I nostri risultati rivelano che la soglia di imitazione di questi modelli si colloca nell'intervallo di 200-600 immagini, a seconda del dominio e del modello. La soglia di imitazione può fornire una base empirica per le rivendicazioni di violazione del copyright e agire come principio guida per gli sviluppatori di modelli di testo-immagine che mirano a rispettare le leggi sul copyright e sulla privacy. Rilasciamo il codice e i dati su https://github.com/vsahil/MIMETIC-2.git e il sito web del progetto è ospitato su https://how-many-van-goghs-does-it-take.github.io.
English
Text-to-image models are trained using large datasets collected by scraping
image-text pairs from the internet. These datasets often include private,
copyrighted, and licensed material. Training models on such datasets enables
them to generate images with such content, which might violate copyright laws
and individual privacy. This phenomenon is termed imitation -- generation of
images with content that has recognizable similarity to its training images. In
this work we study the relationship between a concept's frequency in the
training dataset and the ability of a model to imitate it. We seek to determine
the point at which a model was trained on enough instances to imitate a concept
-- the imitation threshold. We posit this question as a new problem: Finding
the Imitation Threshold (FIT) and propose an efficient approach that estimates
the imitation threshold without incurring the colossal cost of training
multiple models from scratch. We experiment with two domains -- human faces and
art styles -- for which we create four datasets, and evaluate three
text-to-image models which were trained on two pretraining datasets. Our
results reveal that the imitation threshold of these models is in the range of
200-600 images, depending on the domain and the model. The imitation threshold
can provide an empirical basis for copyright violation claims and acts as a
guiding principle for text-to-image model developers that aim to comply with
copyright and privacy laws. We release the code and data at
https://github.com/vsahil/MIMETIC-2.git and the project's website is
hosted at https://how-many-van-goghs-does-it-take.github.io.Summary
AI-Generated Summary