バン・ゴッホの数がいくつ必要か?模倣の閾値の発見
How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold
October 19, 2024
著者: Sahil Verma, Royi Rassin, Arnav Das, Gantavya Bhatt, Preethi Seshadri, Chirag Shah, Jeff Bilmes, Hannaneh Hajishirzi, Yanai Elazar
cs.AI
要旨
テキストから画像へのモデルは、インターネットから画像テキストのペアを収集することで収集された大規模なデータセットを使用してトレーニングされます。これらのデータセットには、プライベートな、著作権のある、ライセンスされた素材が含まれることがよくあります。このようなデータセットでモデルをトレーニングすることにより、それらはそのようなコンテンツを持つ画像を生成する能力を獲得しますが、これは著作権法や個人のプライバシーに違反する可能性があります。この現象は模倣と呼ばれ、トレーニング画像と類似性のあるコンテンツを持つ画像を生成することを指します。本研究では、トレーニングデータセット内の概念の頻度とモデルがそれを模倣する能力との関係を調査します。モデルが概念を模倣するのに十分なインスタンスでトレーニングされた時点を特定することを目指し、模倣のしきい値と呼びます。この問題を新しい問題と位置付け、模倣のしきい値(FIT)を見つけることを提案し、複数のモデルをゼロからトレーニングする膨大なコストをかけずに模倣のしきい値を推定する効率的なアプローチを提案します。私たちは、人間の顔と芸術スタイルの2つのドメインで4つのデータセットを作成し、2つの事前トレーニングデータセットでトレーニングされた3つのテキストから画像へのモデルを評価します。結果は、これらのモデルの模倣のしきい値が、ドメインやモデルによって異なり、200〜600枚の画像の範囲にあることを示しています。模倣のしきい値は、著作権侵害の主張の経験的根拠を提供し、著作権やプライバシー法に準拠することを目指すテキストから画像へのモデル開発者にとっての指針となります。コードとデータはhttps://github.com/vsahil/MIMETIC-2.gitで公開されており、プロジェクトのウェブサイトはhttps://how-many-van-goghs-does-it-take.github.ioでホストされています。
English
Text-to-image models are trained using large datasets collected by scraping
image-text pairs from the internet. These datasets often include private,
copyrighted, and licensed material. Training models on such datasets enables
them to generate images with such content, which might violate copyright laws
and individual privacy. This phenomenon is termed imitation -- generation of
images with content that has recognizable similarity to its training images. In
this work we study the relationship between a concept's frequency in the
training dataset and the ability of a model to imitate it. We seek to determine
the point at which a model was trained on enough instances to imitate a concept
-- the imitation threshold. We posit this question as a new problem: Finding
the Imitation Threshold (FIT) and propose an efficient approach that estimates
the imitation threshold without incurring the colossal cost of training
multiple models from scratch. We experiment with two domains -- human faces and
art styles -- for which we create four datasets, and evaluate three
text-to-image models which were trained on two pretraining datasets. Our
results reveal that the imitation threshold of these models is in the range of
200-600 images, depending on the domain and the model. The imitation threshold
can provide an empirical basis for copyright violation claims and acts as a
guiding principle for text-to-image model developers that aim to comply with
copyright and privacy laws. We release the code and data at
https://github.com/vsahil/MIMETIC-2.git and the project's website is
hosted at https://how-many-van-goghs-does-it-take.github.io.Summary
AI-Generated Summary