Vers les Meilleures Pratiques pour les Jeux de Données Ouverts pour l'Entraßnement des LLMTowards Best Practices for Open Datasets for LLM Training
De nombreuses entreprises d'IA entraĂźnent leurs grands modĂšles de langage (GML) sur des donnĂ©es sans l'autorisation des dĂ©tenteurs des droits d'auteur. La lĂ©galitĂ© de cette pratique varie selon les juridictions : dans des pays comme l'UE et le Japon, cela est autorisĂ© sous certaines restrictions, tandis qu'aux Ătats-Unis, le cadre lĂ©gal est plus ambigu. IndĂ©pendamment du statut lĂ©gal, les prĂ©occupations des producteurs crĂ©atifs ont donnĂ© lieu Ă plusieurs poursuites pour violation du droit d'auteur trĂšs mĂ©diatisĂ©es, et la menace de litiges est souvent citĂ©e comme raison de la tendance rĂ©cente Ă limiter les informations partagĂ©es sur les ensembles de donnĂ©es d'entraĂźnement par les acteurs tant commerciaux que d'intĂ©rĂȘt public. Cette tendance Ă limiter les informations sur les donnĂ©es nuit en entravant la transparence, la responsabilitĂ© et l'innovation dans l'Ă©cosystĂšme global en privant les chercheurs, les auditeurs et les individus impactĂ©s de l'accĂšs aux informations nĂ©cessaires pour comprendre les modĂšles d'IA. Bien que cela puisse ĂȘtre attĂ©nuĂ© en formant des modĂšles de langage sur des donnĂ©es en accĂšs libre et du domaine public, au moment de la rĂ©daction, il n'existe pas de tels modĂšles (formĂ©s Ă une Ă©chelle significative) en raison des dĂ©fis techniques et sociologiques substantiels pour rassembler le corpus nĂ©cessaire. Ces dĂ©fis incluent des mĂ©tadonnĂ©es incomplĂštes et peu fiables, le coĂ»t et la complexitĂ© de la numĂ©risation des documents physiques, ainsi que le large Ă©ventail de compĂ©tences juridiques et techniques requises pour garantir la pertinence et la responsabilitĂ© dans un paysage en Ă©volution rapide. S'orienter vers un avenir oĂč les systĂšmes d'IA pourront ĂȘtre formĂ©s sur des donnĂ©es sous licence ouverte qui sont gĂ©rĂ©es de maniĂšre responsable exige une collaboration entre les domaines juridique, technique et politique, ainsi que des investissements dans les normes de mĂ©tadonnĂ©es, la numĂ©risation et la promotion d'une culture de l'ouverture.