De Hugging Face à GitHub : Suivi de la dérive des licences dans l'écosystème de l'IA open source
From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem
September 11, 2025
papers.authors: James Jewitt, Hao Li, Bram Adams, Gopi Krishnan Rajbahadur, Ahmed E. Hassan
cs.AI
papers.abstract
Les conflits de licences cachés dans l'écosystème open-source de l'IA posent des risques juridiques et éthiques sérieux, exposant les organisations à des litiges potentiels et les utilisateurs à des risques non divulgués. Cependant, le domaine manque d'une compréhension fondée sur les données de la fréquence à laquelle ces conflits se produisent, de leur origine et des communautés les plus touchées. Nous présentons le premier audit complet des licences pour les ensembles de données et les modèles sur Hugging Face, ainsi que leur intégration en aval dans les applications logicielles open-source, couvrant 364 000 ensembles de données, 1,6 million de modèles et 140 000 projets GitHub. Notre analyse empirique révèle une non-conformité systémique dans laquelle 35,5 % des transitions de modèle à application suppriment les clauses de licence restrictives en les réattribuant sous des termes permissifs. En outre, nous prototypons un moteur de règles extensible qui encode près de 200 clauses SPDX et spécifiques aux modèles pour détecter les conflits de licences, capable de résoudre 86,4 % des conflits de licences dans les applications logicielles. Pour soutenir les recherches futures, nous publions notre ensemble de données et le moteur prototype. Notre étude met en lumière la conformité des licences comme un défi de gouvernance critique dans l'IA open-source et fournit à la fois les données et les outils nécessaires pour permettre une conformité automatisée et consciente de l'IA à grande échelle.
English
Hidden license conflicts in the open-source AI ecosystem pose serious legal
and ethical risks, exposing organizations to potential litigation and users to
undisclosed risk. However, the field lacks a data-driven understanding of how
frequently these conflicts occur, where they originate, and which communities
are most affected. We present the first end-to-end audit of licenses for
datasets and models on Hugging Face, as well as their downstream integration
into open-source software applications, covering 364 thousand datasets, 1.6
million models, and 140 thousand GitHub projects. Our empirical analysis
reveals systemic non-compliance in which 35.5% of model-to-application
transitions eliminate restrictive license clauses by relicensing under
permissive terms. In addition, we prototype an extensible rule engine that
encodes almost 200 SPDX and model-specific clauses for detecting license
conflicts, which can solve 86.4% of license conflicts in software applications.
To support future research, we release our dataset and the prototype engine.
Our study highlights license compliance as a critical governance challenge in
open-source AI and provides both the data and tools necessary to enable
automated, AI-aware compliance at scale.