De Hugging Face à GitHub : Suivi de la dérive des licences dans l'écosystème de l'IA open source

papers.abstract

Les conflits de licences cachés dans l'écosystème open-source de l'IA posent des risques juridiques et éthiques sérieux, exposant les organisations à des litiges potentiels et les utilisateurs à des risques non divulgués. Cependant, le domaine manque d'une compréhension fondée sur les données de la fréquence à laquelle ces conflits se produisent, de leur origine et des communautés les plus touchées. Nous présentons le premier audit complet des licences pour les ensembles de données et les modèles sur Hugging Face, ainsi que leur intégration en aval dans les applications logicielles open-source, couvrant 364 000 ensembles de données, 1,6 million de modèles et 140 000 projets GitHub. Notre analyse empirique révèle une non-conformité systémique dans laquelle 35,5 % des transitions de modèle à application suppriment les clauses de licence restrictives en les réattribuant sous des termes permissifs. En outre, nous prototypons un moteur de règles extensible qui encode près de 200 clauses SPDX et spécifiques aux modèles pour détecter les conflits de licences, capable de résoudre 86,4 % des conflits de licences dans les applications logicielles. Pour soutenir les recherches futures, nous publions notre ensemble de données et le moteur prototype. Notre étude met en lumière la conformité des licences comme un défi de gouvernance critique dans l'IA open-source et fournit à la fois les données et les outils nécessaires pour permettre une conformité automatisée et consciente de l'IA à grande échelle.

English

Hidden license conflicts in the open-source AI ecosystem pose serious legal and ethical risks, exposing organizations to potential litigation and users to undisclosed risk. However, the field lacks a data-driven understanding of how frequently these conflicts occur, where they originate, and which communities are most affected. We present the first end-to-end audit of licenses for datasets and models on Hugging Face, as well as their downstream integration into open-source software applications, covering 364 thousand datasets, 1.6 million models, and 140 thousand GitHub projects. Our empirical analysis reveals systemic non-compliance in which 35.5% of model-to-application transitions eliminate restrictive license clauses by relicensing under permissive terms. In addition, we prototype an extensible rule engine that encodes almost 200 SPDX and model-specific clauses for detecting license conflicts, which can solve 86.4% of license conflicts in software applications. To support future research, we release our dataset and the prototype engine. Our study highlights license compliance as a critical governance challenge in open-source AI and provides both the data and tools necessary to enable automated, AI-aware compliance at scale.

De Hugging Face à GitHub : Suivi de la dérive des licences dans l'écosystème de l'IA open source

From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem

papers.abstract

Support