Hacia las Mejores Prácticas para Conjuntos de Datos Abiertos para el Entrenamiento de Modelos de Lenguaje con Aprendizaje ProfundoTowards Best Practices for Open Datasets for LLM Training
Muchas empresas de IA están entrenando sus grandes modelos de lenguaje (LLMs) en datos sin el permiso de los propietarios de los derechos de autor. La permisibilidad de hacerlo varía según la jurisdicción: en países como la UE y Japón, esto está permitido bajo ciertas restricciones, mientras que en los Estados Unidos, el panorama legal es más ambiguo. Independientemente del estado legal, las preocupaciones de los productores creativos han dado lugar a varios casos de alto perfil de demandas por derechos de autor, y la amenaza de litigio suele citarse como una razón para la tendencia reciente hacia la minimización de la información compartida sobre los conjuntos de datos de entrenamiento tanto por actores corporativos como de interés público. Esta tendencia de limitar la información de los datos causa daño al obstaculizar la transparencia, la responsabilidad y la innovación en el ecosistema en general al negar a los investigadores, auditores e individuos afectados el acceso a la información necesaria para comprender los modelos de IA. Aunque esto podría mitigarse entrenando modelos de lenguaje en datos de acceso abierto y de dominio público, en el momento de la escritura, no existen tales modelos (entrenados a una escala significativa) debido a los importantes desafíos técnicos y sociológicos para reunir el corpus necesario. Estos desafíos incluyen metadatos incompletos e poco confiables, el costo y la complejidad de digitalizar registros físicos, y el diverso conjunto de habilidades legales y técnicas requeridas para garantizar relevancia y responsabilidad en un panorama que cambia rápidamente. Avanzar hacia un futuro en el que los sistemas de IA puedan ser entrenados en datos con licencia abierta que estén curados y gobernados de manera responsable requiere colaboración en los ámbitos legal, técnico y de políticas, junto con inversiones en estándares de metadatos, digitalización y fomento de una cultura de apertura.