SILO言語モデル:ノンパラメトリックデータストアにおける法的リスクの隔離
SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore
August 8, 2023
著者: Sewon Min, Suchin Gururangan, Eric Wallace, Hannaneh Hajishirzi, Noah A. Smith, Luke Zettlemoyer
cs.AI
要旨
著作権で保護されたデータやその他の制限付きデータを用いて言語モデル(LM)をトレーニングすることの合法性は、激しい議論の的となっている。しかし、我々が示すように、低リスクのテキスト(例えば、著作権の切れた書籍や政府文書)のみでトレーニングされた場合、その限られたサイズとドメインカバレッジのため、モデルの性能は大幅に低下する。本論文では、推論中にこのリスクと性能のトレードオフを管理する新しい言語モデルSILOを提案する。SILOは、(1) パブリックドメインおよび許諾ライセンス付きのテキスト228Bトークンからなる新しいコーパスOpen License Corpus(OLC)でパラメトリックLMをトレーニングし、(2) 推論中にのみクエリされる、より一般的で容易に変更可能なノンパラメトリックデータストア(例えば、著作権付きの書籍やニュースを含む)で補強することで構築される。このデータストアにより、高リスクデータをトレーニングせずに使用することが可能となり、文レベルでのデータ帰属をサポートし、データ提供者がコンテンツをストアから削除することでモデルからオプトアウトすることを可能にする。これらの機能は、米国のフェアユース原則や欧州連合のGDPRなどのデータ使用規制への準拠を促進することができる。我々の実験では、パラメトリックLMはOLCでカバーされていないドメインで苦戦するが、データストアへのアクセスによりドメイン外の性能が大幅に向上し、主に高リスクテキストからなるより多様なコーパスであるPileでトレーニングされたLMとの性能差の90%を埋めることが示された。また、どのノンパラメトリックアプローチが最適か、残りのエラーがどこにあるか、データストアのサイズに応じて性能がどのようにスケールするかを分析した。我々の結果は、法的リスクを軽減しながら高品質な言語モデルを構築することが可能であることを示唆している。
English
The legality of training language models (LMs) on copyrighted or otherwise
restricted data is under intense debate. However, as we show, model performance
significantly degrades if trained only on low-risk text (e.g., out-of-copyright
books or government documents), due to its limited size and domain coverage. We
present SILO, a new language model that manages this risk-performance tradeoff
during inference. SILO is built by (1) training a parametric LM on Open License
Corpus (OLC), a new corpus we curate with 228B tokens of public domain and
permissively licensed text and (2) augmenting it with a more general and easily
modifiable nonparametric datastore (e.g., containing copyrighted books or news)
that is only queried during inference. The datastore allows use of high-risk
data without training on it, supports sentence-level data attribution, and
enables data producers to opt out from the model by removing content from the
store. These capabilities can foster compliance with data-use regulations such
as the fair use doctrine in the United States and the GDPR in the European
Union. Our experiments show that the parametric LM struggles on domains not
covered by OLC. However, access to the datastore greatly improves out of domain
performance, closing 90% of the performance gap with an LM trained on the Pile,
a more diverse corpus with mostly high-risk text. We also analyze which
nonparametric approach works best, where the remaining errors lie, and how
performance scales with datastore size. Our results suggest that it is possible
to build high quality language models while mitigating their legal risk.