Modelos de Linguagem SILO: Isolando Riscos Legais em um Armazenamento de Dados Não Paramétrico

Resumo

A legalidade de treinar modelos de linguagem (LMs) com dados protegidos por direitos autorais ou de outra forma restritos está sob intenso debate. No entanto, como mostramos, o desempenho do modelo degrada significativamente se treinado apenas com textos de baixo risco (por exemplo, livros de domínio público ou documentos governamentais), devido ao seu tamanho limitado e cobertura de domínio. Apresentamos o SILO, um novo modelo de linguagem que gerencia esse tradeoff entre risco e desempenho durante a inferência. O SILO é construído (1) treinando um LM paramétrico no Open License Corpus (OLC), um novo corpus que curamos com 228 bilhões de tokens de textos de domínio público e licenciados de forma permissiva, e (2) aprimorando-o com um armazenamento de dados não paramétrico mais geral e facilmente modificável (por exemplo, contendo livros ou notícias protegidos por direitos autorais) que é consultado apenas durante a inferência. O armazenamento de dados permite o uso de dados de alto risco sem treinar com eles, suporta atribuição de dados em nível de frase e permite que produtores de dados optem por não participar do modelo removendo conteúdo do armazenamento. Essas capacidades podem promover a conformidade com regulamentações de uso de dados, como a doutrina de uso justo nos Estados Unidos e o GDPR na União Europeia. Nossos experimentos mostram que o LM paramétrico tem dificuldades em domínios não cobertos pelo OLC. No entanto, o acesso ao armazenamento de dados melhora significativamente o desempenho fora do domínio, fechando 90% da lacuna de desempenho em relação a um LM treinado no Pile, um corpus mais diversificado com textos majoritariamente de alto risco. Também analisamos qual abordagem não paramétrica funciona melhor, onde os erros remanescentes estão e como o desempenho escala com o tamanho do armazenamento de dados. Nossos resultados sugerem que é possível construir modelos de linguagem de alta qualidade enquanto se mitiga seu risco legal.

English

The legality of training language models (LMs) on copyrighted or otherwise restricted data is under intense debate. However, as we show, model performance significantly degrades if trained only on low-risk text (e.g., out-of-copyright books or government documents), due to its limited size and domain coverage. We present SILO, a new language model that manages this risk-performance tradeoff during inference. SILO is built by (1) training a parametric LM on Open License Corpus (OLC), a new corpus we curate with 228B tokens of public domain and permissively licensed text and (2) augmenting it with a more general and easily modifiable nonparametric datastore (e.g., containing copyrighted books or news) that is only queried during inference. The datastore allows use of high-risk data without training on it, supports sentence-level data attribution, and enables data producers to opt out from the model by removing content from the store. These capabilities can foster compliance with data-use regulations such as the fair use doctrine in the United States and the GDPR in the European Union. Our experiments show that the parametric LM struggles on domains not covered by OLC. However, access to the datastore greatly improves out of domain performance, closing 90% of the performance gap with an LM trained on the Pile, a more diverse corpus with mostly high-risk text. We also analyze which nonparametric approach works best, where the remaining errors lie, and how performance scales with datastore size. Our results suggest that it is possible to build high quality language models while mitigating their legal risk.

Modelos de Linguagem SILO: Isolando Riscos Legais em um Armazenamento de Dados Não Paramétrico

SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore

Resumo

Support