ChatPaper.aiChatPaper

Modèles de Langage SILO : Isoler le Risque Légal dans un Magasin de Données Non Paramétrique

SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore

August 8, 2023
Auteurs: Sewon Min, Suchin Gururangan, Eric Wallace, Hannaneh Hajishirzi, Noah A. Smith, Luke Zettlemoyer
cs.AI

Résumé

La légalité de l'entraînement des modèles de langage (LMs) sur des données protégées par le droit d'auteur ou autrement restreintes fait l'objet d'un débat intense. Cependant, comme nous le montrons, les performances du modèle se dégradent considérablement s'il est entraîné uniquement sur des textes à faible risque (par exemple, des livres tombés dans le domaine public ou des documents gouvernementaux), en raison de leur taille limitée et de leur couverture de domaine restreinte. Nous présentons SILO, un nouveau modèle de langage qui gère ce compromis entre risque et performance lors de l'inférence. SILO est construit en (1) entraînant un LM paramétrique sur l'Open License Corpus (OLC), un nouveau corpus que nous avons constitué avec 228 milliards de tokens de textes du domaine public et sous licence permissive, et (2) en l'augmentant avec un datastore non paramétrique plus général et facilement modifiable (par exemple, contenant des livres ou des articles de presse protégés par le droit d'auteur) qui n'est interrogé que pendant l'inférence. Le datastore permet d'utiliser des données à haut risque sans les inclure dans l'entraînement, prend en charge l'attribution des données au niveau de la phrase, et permet aux producteurs de données de se retirer du modèle en supprimant leur contenu du datastore. Ces fonctionnalités peuvent favoriser la conformité aux réglementations sur l'utilisation des données, telles que la doctrine du fair use aux États-Unis et le RGPD dans l'Union européenne. Nos expériences montrent que le LM paramétrique peine sur les domaines non couverts par l'OLC. Cependant, l'accès au datastore améliore considérablement les performances hors domaine, réduisant de 90 % l'écart de performance avec un LM entraîné sur le Pile, un corpus plus diversifié contenant principalement des textes à haut risque. Nous analysons également quelle approche non paramétrique fonctionne le mieux, où se situent les erreurs restantes, et comment les performances évoluent avec la taille du datastore. Nos résultats suggèrent qu'il est possible de construire des modèles de langage de haute qualité tout en atténuant leur risque juridique.
English
The legality of training language models (LMs) on copyrighted or otherwise restricted data is under intense debate. However, as we show, model performance significantly degrades if trained only on low-risk text (e.g., out-of-copyright books or government documents), due to its limited size and domain coverage. We present SILO, a new language model that manages this risk-performance tradeoff during inference. SILO is built by (1) training a parametric LM on Open License Corpus (OLC), a new corpus we curate with 228B tokens of public domain and permissively licensed text and (2) augmenting it with a more general and easily modifiable nonparametric datastore (e.g., containing copyrighted books or news) that is only queried during inference. The datastore allows use of high-risk data without training on it, supports sentence-level data attribution, and enables data producers to opt out from the model by removing content from the store. These capabilities can foster compliance with data-use regulations such as the fair use doctrine in the United States and the GDPR in the European Union. Our experiments show that the parametric LM struggles on domains not covered by OLC. However, access to the datastore greatly improves out of domain performance, closing 90% of the performance gap with an LM trained on the Pile, a more diverse corpus with mostly high-risk text. We also analyze which nonparametric approach works best, where the remaining errors lie, and how performance scales with datastore size. Our results suggest that it is possible to build high quality language models while mitigating their legal risk.
PDF100December 15, 2024