Vers les Meilleures Pratiques pour les Jeux de Données Ouverts pour l'Entraînement des LLM
Towards Best Practices for Open Datasets for LLM Training
January 14, 2025
Auteurs: Stefan Baack, Stella Biderman, Kasia Odrozek, Aviya Skowron, Ayah Bdeir, Jillian Bommarito, Jennifer Ding, Maximilian Gahntz, Paul Keller, Pierre-Carl Langlais, Greg Lindahl, Sebastian Majstorovic, Nik Marda, Guilherme Penedo, Maarten Van Segbroeck, Jennifer Wang, Leandro von Werra, Mitchell Baker, Julie Belião, Kasia Chmielinski, Marzieh Fadaee, Lisa Gutermuth, Hynek Kydlíček, Greg Leppert, EM Lewis-Jong, Solana Larsen, Shayne Longpre, Angela Oduor Lungati, Cullen Miller, Victor Miller, Max Ryabinin, Kathleen Siminyu, Andrew Strait, Mark Surman, Anna Tumadóttir, Maurice Weber, Rebecca Weiss, Lee White, Thomas Wolf
cs.AI
Résumé
De nombreuses entreprises d'IA entraînent leurs grands modèles de langage (GML) sur des données sans l'autorisation des détenteurs des droits d'auteur. La légalité de cette pratique varie selon les juridictions : dans des pays comme l'UE et le Japon, cela est autorisé sous certaines restrictions, tandis qu'aux États-Unis, le cadre légal est plus ambigu. Indépendamment du statut légal, les préoccupations des producteurs créatifs ont donné lieu à plusieurs poursuites pour violation du droit d'auteur très médiatisées, et la menace de litiges est souvent citée comme raison de la tendance récente à limiter les informations partagées sur les ensembles de données d'entraînement par les acteurs tant commerciaux que d'intérêt public. Cette tendance à limiter les informations sur les données nuit en entravant la transparence, la responsabilité et l'innovation dans l'écosystème global en privant les chercheurs, les auditeurs et les individus impactés de l'accès aux informations nécessaires pour comprendre les modèles d'IA.
Bien que cela puisse être atténué en formant des modèles de langage sur des données en accès libre et du domaine public, au moment de la rédaction, il n'existe pas de tels modèles (formés à une échelle significative) en raison des défis techniques et sociologiques substantiels pour rassembler le corpus nécessaire. Ces défis incluent des métadonnées incomplètes et peu fiables, le coût et la complexité de la numérisation des documents physiques, ainsi que le large éventail de compétences juridiques et techniques requises pour garantir la pertinence et la responsabilité dans un paysage en évolution rapide. S'orienter vers un avenir où les systèmes d'IA pourront être formés sur des données sous licence ouverte qui sont gérées de manière responsable exige une collaboration entre les domaines juridique, technique et politique, ainsi que des investissements dans les normes de métadonnées, la numérisation et la promotion d'une culture de l'ouverture.
English
Many AI companies are training their large language models (LLMs) on data
without the permission of the copyright owners. The permissibility of doing so
varies by jurisdiction: in countries like the EU and Japan, this is allowed
under certain restrictions, while in the United States, the legal landscape is
more ambiguous. Regardless of the legal status, concerns from creative
producers have led to several high-profile copyright lawsuits, and the threat
of litigation is commonly cited as a reason for the recent trend towards
minimizing the information shared about training datasets by both corporate and
public interest actors. This trend in limiting data information causes harm by
hindering transparency, accountability, and innovation in the broader ecosystem
by denying researchers, auditors, and impacted individuals access to the
information needed to understand AI models.
While this could be mitigated by training language models on open access and
public domain data, at the time of writing, there are no such models (trained
at a meaningful scale) due to the substantial technical and sociological
challenges in assembling the necessary corpus. These challenges include
incomplete and unreliable metadata, the cost and complexity of digitizing
physical records, and the diverse set of legal and technical skills required to
ensure relevance and responsibility in a quickly changing landscape. Building
towards a future where AI systems can be trained on openly licensed data that
is responsibly curated and governed requires collaboration across legal,
technical, and policy domains, along with investments in metadata standards,
digitization, and fostering a culture of openness.Summary
AI-Generated Summary