ChatPaper.aiChatPaper

Von Hugging Face zu GitHub: Nachverfolgung von Lizenzänderungen im Open-Source-KI-Ökosystem

From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem

September 11, 2025
papers.authors: James Jewitt, Hao Li, Bram Adams, Gopi Krishnan Rajbahadur, Ahmed E. Hassan
cs.AI

papers.abstract

Versteckte Lizenzkonflikte im Ökosystem der Open-Source-KI bergen ernsthafte rechtliche und ethische Risiken, die Organisationen potenziellen Rechtsstreitigkeiten und Nutzer nicht offengelegten Risiken aussetzen. Dennoch fehlt es in diesem Bereich an einem datengestützten Verständnis darüber, wie häufig diese Konflikte auftreten, wo sie ihren Ursprung haben und welche Gemeinschaften am stärksten betroffen sind. Wir präsentieren die erste umfassende Prüfung von Lizenzen für Datensätze und Modelle auf Hugging Face sowie deren nachgelagerte Integration in Open-Source-Softwareanwendungen, die 364.000 Datensätze, 1,6 Millionen Modelle und 140.000 GitHub-Projekte umfasst. Unsere empirische Analyse zeigt systemische Nichteinhaltung auf, bei der 35,5 % der Übergänge von Modellen zu Anwendungen restriktive Lizenzklauseln durch Neulizenzierung unter freizügigen Bedingungen eliminieren. Zudem entwickeln wir einen Prototyp einer erweiterbaren Regel-Engine, die fast 200 SPDX- und modellspezifische Klauseln zur Erkennung von Lizenzkonflikten kodiert und 86,4 % der Lizenzkonflikte in Softwareanwendungen lösen kann. Um zukünftige Forschung zu unterstützen, veröffentlichen wir unseren Datensatz und die Prototyp-Engine. Unsere Studie unterstreicht die Lizenzkonformität als eine kritische Governance-Herausforderung in der Open-Source-KI und stellt sowohl die Daten als auch die Werkzeuge bereit, die notwendig sind, um automatisierte, KI-bewusste Konformität in großem Maßstab zu ermöglichen.
English
Hidden license conflicts in the open-source AI ecosystem pose serious legal and ethical risks, exposing organizations to potential litigation and users to undisclosed risk. However, the field lacks a data-driven understanding of how frequently these conflicts occur, where they originate, and which communities are most affected. We present the first end-to-end audit of licenses for datasets and models on Hugging Face, as well as their downstream integration into open-source software applications, covering 364 thousand datasets, 1.6 million models, and 140 thousand GitHub projects. Our empirical analysis reveals systemic non-compliance in which 35.5% of model-to-application transitions eliminate restrictive license clauses by relicensing under permissive terms. In addition, we prototype an extensible rule engine that encodes almost 200 SPDX and model-specific clauses for detecting license conflicts, which can solve 86.4% of license conflicts in software applications. To support future research, we release our dataset and the prototype engine. Our study highlights license compliance as a critical governance challenge in open-source AI and provides both the data and tools necessary to enable automated, AI-aware compliance at scale.
PDF22September 23, 2025