Modelos de Lenguaje SILO: Aislando el Riesgo Legal en un Almacén de Datos No Paramétrico
SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore
August 8, 2023
Autores: Sewon Min, Suchin Gururangan, Eric Wallace, Hannaneh Hajishirzi, Noah A. Smith, Luke Zettlemoyer
cs.AI
Resumen
La legalidad de entrenar modelos de lenguaje (LMs) con datos protegidos por derechos de autor o de otro modo restringidos es objeto de un intenso debate. Sin embargo, como demostramos, el rendimiento del modelo se degrada significativamente si se entrena únicamente con texto de bajo riesgo (por ejemplo, libros fuera de derechos de autor o documentos gubernamentales), debido a su tamaño limitado y cobertura de dominio. Presentamos SILO, un nuevo modelo de lenguaje que gestiona este equilibrio entre riesgo y rendimiento durante la inferencia. SILO se construye mediante (1) el entrenamiento de un LM paramétrico en el Open License Corpus (OLC), un nuevo corpus que hemos curado con 228B tokens de texto de dominio público y con licencias permisivas, y (2) su ampliación con un almacén de datos no paramétrico más general y fácilmente modificable (por ejemplo, que contiene libros o noticias protegidos por derechos de autor) que solo se consulta durante la inferencia. El almacén de datos permite el uso de datos de alto riesgo sin entrenar con ellos, facilita la atribución de datos a nivel de oración y permite a los productores de datos excluirse del modelo eliminando contenido del almacén. Estas capacidades pueden fomentar el cumplimiento de regulaciones sobre el uso de datos, como la doctrina del uso justo en Estados Unidos y el GDPR en la Unión Europea. Nuestros experimentos muestran que el LM paramétrico tiene dificultades en dominios no cubiertos por el OLC. Sin embargo, el acceso al almacén de datos mejora considerablemente el rendimiento fuera de dominio, cerrando el 90% de la brecha de rendimiento con un LM entrenado en The Pile, un corpus más diverso con texto mayormente de alto riesgo. También analizamos qué enfoque no paramétrico funciona mejor, dónde se encuentran los errores restantes y cómo escala el rendimiento con el tamaño del almacén de datos. Nuestros resultados sugieren que es posible construir modelos de lenguaje de alta calidad mientras se mitiga su riesgo legal.
English
The legality of training language models (LMs) on copyrighted or otherwise
restricted data is under intense debate. However, as we show, model performance
significantly degrades if trained only on low-risk text (e.g., out-of-copyright
books or government documents), due to its limited size and domain coverage. We
present SILO, a new language model that manages this risk-performance tradeoff
during inference. SILO is built by (1) training a parametric LM on Open License
Corpus (OLC), a new corpus we curate with 228B tokens of public domain and
permissively licensed text and (2) augmenting it with a more general and easily
modifiable nonparametric datastore (e.g., containing copyrighted books or news)
that is only queried during inference. The datastore allows use of high-risk
data without training on it, supports sentence-level data attribution, and
enables data producers to opt out from the model by removing content from the
store. These capabilities can foster compliance with data-use regulations such
as the fair use doctrine in the United States and the GDPR in the European
Union. Our experiments show that the parametric LM struggles on domains not
covered by OLC. However, access to the datastore greatly improves out of domain
performance, closing 90% of the performance gap with an LM trained on the Pile,
a more diverse corpus with mostly high-risk text. We also analyze which
nonparametric approach works best, where the remaining errors lie, and how
performance scales with datastore size. Our results suggest that it is possible
to build high quality language models while mitigating their legal risk.