Hacia las Mejores Prácticas para Conjuntos de Datos Abiertos para el Entrenamiento de Modelos de Lenguaje con Aprendizaje Profundo
Towards Best Practices for Open Datasets for LLM Training
January 14, 2025
Autores: Stefan Baack, Stella Biderman, Kasia Odrozek, Aviya Skowron, Ayah Bdeir, Jillian Bommarito, Jennifer Ding, Maximilian Gahntz, Paul Keller, Pierre-Carl Langlais, Greg Lindahl, Sebastian Majstorovic, Nik Marda, Guilherme Penedo, Maarten Van Segbroeck, Jennifer Wang, Leandro von Werra, Mitchell Baker, Julie Belião, Kasia Chmielinski, Marzieh Fadaee, Lisa Gutermuth, Hynek Kydlíček, Greg Leppert, EM Lewis-Jong, Solana Larsen, Shayne Longpre, Angela Oduor Lungati, Cullen Miller, Victor Miller, Max Ryabinin, Kathleen Siminyu, Andrew Strait, Mark Surman, Anna Tumadóttir, Maurice Weber, Rebecca Weiss, Lee White, Thomas Wolf
cs.AI
Resumen
Muchas empresas de IA están entrenando sus grandes modelos de lenguaje (LLMs) en datos sin el permiso de los propietarios de los derechos de autor. La permisibilidad de hacerlo varía según la jurisdicción: en países como la UE y Japón, esto está permitido bajo ciertas restricciones, mientras que en los Estados Unidos, el panorama legal es más ambiguo. Independientemente del estado legal, las preocupaciones de los productores creativos han dado lugar a varios casos de alto perfil de demandas por derechos de autor, y la amenaza de litigio suele citarse como una razón para la tendencia reciente hacia la minimización de la información compartida sobre los conjuntos de datos de entrenamiento tanto por actores corporativos como de interés público. Esta tendencia de limitar la información de los datos causa daño al obstaculizar la transparencia, la responsabilidad y la innovación en el ecosistema en general al negar a los investigadores, auditores e individuos afectados el acceso a la información necesaria para comprender los modelos de IA.
Aunque esto podría mitigarse entrenando modelos de lenguaje en datos de acceso abierto y de dominio público, en el momento de la escritura, no existen tales modelos (entrenados a una escala significativa) debido a los importantes desafíos técnicos y sociológicos para reunir el corpus necesario. Estos desafíos incluyen metadatos incompletos e poco confiables, el costo y la complejidad de digitalizar registros físicos, y el diverso conjunto de habilidades legales y técnicas requeridas para garantizar relevancia y responsabilidad en un panorama que cambia rápidamente. Avanzar hacia un futuro en el que los sistemas de IA puedan ser entrenados en datos con licencia abierta que estén curados y gobernados de manera responsable requiere colaboración en los ámbitos legal, técnico y de políticas, junto con inversiones en estándares de metadatos, digitalización y fomento de una cultura de apertura.
English
Many AI companies are training their large language models (LLMs) on data
without the permission of the copyright owners. The permissibility of doing so
varies by jurisdiction: in countries like the EU and Japan, this is allowed
under certain restrictions, while in the United States, the legal landscape is
more ambiguous. Regardless of the legal status, concerns from creative
producers have led to several high-profile copyright lawsuits, and the threat
of litigation is commonly cited as a reason for the recent trend towards
minimizing the information shared about training datasets by both corporate and
public interest actors. This trend in limiting data information causes harm by
hindering transparency, accountability, and innovation in the broader ecosystem
by denying researchers, auditors, and impacted individuals access to the
information needed to understand AI models.
While this could be mitigated by training language models on open access and
public domain data, at the time of writing, there are no such models (trained
at a meaningful scale) due to the substantial technical and sociological
challenges in assembling the necessary corpus. These challenges include
incomplete and unreliable metadata, the cost and complexity of digitizing
physical records, and the diverse set of legal and technical skills required to
ensure relevance and responsibility in a quickly changing landscape. Building
towards a future where AI systems can be trained on openly licensed data that
is responsibly curated and governed requires collaboration across legal,
technical, and policy domains, along with investments in metadata standards,
digitization, and fostering a culture of openness.Summary
AI-Generated Summary