Hacia las Mejores Prácticas para Conjuntos de Datos Abiertos para el Entrenamiento de Modelos de Lenguaje con Aprendizaje Profundo

Resumen

Muchas empresas de IA están entrenando sus grandes modelos de lenguaje (LLMs) en datos sin el permiso de los propietarios de los derechos de autor. La permisibilidad de hacerlo varía según la jurisdicción: en países como la UE y Japón, esto está permitido bajo ciertas restricciones, mientras que en los Estados Unidos, el panorama legal es más ambiguo. Independientemente del estado legal, las preocupaciones de los productores creativos han dado lugar a varios casos de alto perfil de demandas por derechos de autor, y la amenaza de litigio suele citarse como una razón para la tendencia reciente hacia la minimización de la información compartida sobre los conjuntos de datos de entrenamiento tanto por actores corporativos como de interés público. Esta tendencia de limitar la información de los datos causa daño al obstaculizar la transparencia, la responsabilidad y la innovación en el ecosistema en general al negar a los investigadores, auditores e individuos afectados el acceso a la información necesaria para comprender los modelos de IA. Aunque esto podría mitigarse entrenando modelos de lenguaje en datos de acceso abierto y de dominio público, en el momento de la escritura, no existen tales modelos (entrenados a una escala significativa) debido a los importantes desafíos técnicos y sociológicos para reunir el corpus necesario. Estos desafíos incluyen metadatos incompletos e poco confiables, el costo y la complejidad de digitalizar registros físicos, y el diverso conjunto de habilidades legales y técnicas requeridas para garantizar relevancia y responsabilidad en un panorama que cambia rápidamente. Avanzar hacia un futuro en el que los sistemas de IA puedan ser entrenados en datos con licencia abierta que estén curados y gobernados de manera responsable requiere colaboración en los ámbitos legal, técnico y de políticas, junto con inversiones en estándares de metadatos, digitalización y fomento de una cultura de apertura.

English

Many AI companies are training their large language models (LLMs) on data without the permission of the copyright owners. The permissibility of doing so varies by jurisdiction: in countries like the EU and Japan, this is allowed under certain restrictions, while in the United States, the legal landscape is more ambiguous. Regardless of the legal status, concerns from creative producers have led to several high-profile copyright lawsuits, and the threat of litigation is commonly cited as a reason for the recent trend towards minimizing the information shared about training datasets by both corporate and public interest actors. This trend in limiting data information causes harm by hindering transparency, accountability, and innovation in the broader ecosystem by denying researchers, auditors, and impacted individuals access to the information needed to understand AI models. While this could be mitigated by training language models on open access and public domain data, at the time of writing, there are no such models (trained at a meaningful scale) due to the substantial technical and sociological challenges in assembling the necessary corpus. These challenges include incomplete and unreliable metadata, the cost and complexity of digitizing physical records, and the diverse set of legal and technical skills required to ensure relevance and responsibility in a quickly changing landscape. Building towards a future where AI systems can be trained on openly licensed data that is responsibly curated and governed requires collaboration across legal, technical, and policy domains, along with investments in metadata standards, digitization, and fostering a culture of openness.