Modelos de Linguagem SILO: Isolando Riscos Legais em um Armazenamento de Dados Não Paramétrico
SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore
August 8, 2023
Autores: Sewon Min, Suchin Gururangan, Eric Wallace, Hannaneh Hajishirzi, Noah A. Smith, Luke Zettlemoyer
cs.AI
Resumo
A legalidade de treinar modelos de linguagem (LMs) com dados protegidos por direitos autorais ou de outra forma restritos está sob intenso debate. No entanto, como mostramos, o desempenho do modelo degrada significativamente se treinado apenas com textos de baixo risco (por exemplo, livros de domínio público ou documentos governamentais), devido ao seu tamanho limitado e cobertura de domínio. Apresentamos o SILO, um novo modelo de linguagem que gerencia esse tradeoff entre risco e desempenho durante a inferência. O SILO é construído (1) treinando um LM paramétrico no Open License Corpus (OLC), um novo corpus que curamos com 228 bilhões de tokens de textos de domínio público e licenciados de forma permissiva, e (2) aprimorando-o com um armazenamento de dados não paramétrico mais geral e facilmente modificável (por exemplo, contendo livros ou notícias protegidos por direitos autorais) que é consultado apenas durante a inferência. O armazenamento de dados permite o uso de dados de alto risco sem treinar com eles, suporta atribuição de dados em nível de frase e permite que produtores de dados optem por não participar do modelo removendo conteúdo do armazenamento. Essas capacidades podem promover a conformidade com regulamentações de uso de dados, como a doutrina de uso justo nos Estados Unidos e o GDPR na União Europeia. Nossos experimentos mostram que o LM paramétrico tem dificuldades em domínios não cobertos pelo OLC. No entanto, o acesso ao armazenamento de dados melhora significativamente o desempenho fora do domínio, fechando 90% da lacuna de desempenho em relação a um LM treinado no Pile, um corpus mais diversificado com textos majoritariamente de alto risco. Também analisamos qual abordagem não paramétrica funciona melhor, onde os erros remanescentes estão e como o desempenho escala com o tamanho do armazenamento de dados. Nossos resultados sugerem que é possível construir modelos de linguagem de alta qualidade enquanto se mitiga seu risco legal.
English
The legality of training language models (LMs) on copyrighted or otherwise
restricted data is under intense debate. However, as we show, model performance
significantly degrades if trained only on low-risk text (e.g., out-of-copyright
books or government documents), due to its limited size and domain coverage. We
present SILO, a new language model that manages this risk-performance tradeoff
during inference. SILO is built by (1) training a parametric LM on Open License
Corpus (OLC), a new corpus we curate with 228B tokens of public domain and
permissively licensed text and (2) augmenting it with a more general and easily
modifiable nonparametric datastore (e.g., containing copyrighted books or news)
that is only queried during inference. The datastore allows use of high-risk
data without training on it, supports sentence-level data attribution, and
enables data producers to opt out from the model by removing content from the
store. These capabilities can foster compliance with data-use regulations such
as the fair use doctrine in the United States and the GDPR in the European
Union. Our experiments show that the parametric LM struggles on domains not
covered by OLC. However, access to the datastore greatly improves out of domain
performance, closing 90% of the performance gap with an LM trained on the Pile,
a more diverse corpus with mostly high-risk text. We also analyze which
nonparametric approach works best, where the remaining errors lie, and how
performance scales with datastore size. Our results suggest that it is possible
to build high quality language models while mitigating their legal risk.