Hugging FaceからGitHubへ:オープンソースAIエコシステムにおけるライセンスドリフトの追跡
From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem
September 11, 2025
著者: James Jewitt, Hao Li, Bram Adams, Gopi Krishnan Rajbahadur, Ahmed E. Hassan
cs.AI
要旨
オープンソースAIエコシステムにおける隠れたライセンス競合は、深刻な法的および倫理的リスクをもたらし、組織は潜在的な訴訟にさらされ、ユーザーは未開示のリスクに直面する。しかし、これらの競合がどの程度頻繁に発生し、どこから発生し、どのコミュニティが最も影響を受けるかについて、データに基づいた理解が不足している。本研究では、Hugging Face上のデータセットとモデルのライセンス、およびそれらの下流でのオープンソースソフトウェアアプリケーションへの統合を対象とした初のエンドツーエンド監査を実施し、36万4千のデータセット、160万のモデル、14万のGitHubプロジェクトをカバーした。実証分析の結果、モデルからアプリケーションへの移行において35.5%が制限的なライセンス条項を削除し、許容的な条件で再ライセンスするという体系的な非遵守が明らかになった。さらに、約200のSPDXおよびモデル固有の条項をエンコードし、ライセンス競合を検出する拡張可能なルールエンジンのプロトタイプを開発し、ソフトウェアアプリケーションにおける86.4%のライセンス競合を解決できることを示した。今後の研究を支援するため、データセットとプロトタイプエンジンを公開する。本研究は、オープンソースAIにおけるライセンス遵守が重要なガバナンス課題であることを強調し、自動化されたAI対応の大規模な遵守を可能にするためのデータとツールを提供する。
English
Hidden license conflicts in the open-source AI ecosystem pose serious legal
and ethical risks, exposing organizations to potential litigation and users to
undisclosed risk. However, the field lacks a data-driven understanding of how
frequently these conflicts occur, where they originate, and which communities
are most affected. We present the first end-to-end audit of licenses for
datasets and models on Hugging Face, as well as their downstream integration
into open-source software applications, covering 364 thousand datasets, 1.6
million models, and 140 thousand GitHub projects. Our empirical analysis
reveals systemic non-compliance in which 35.5% of model-to-application
transitions eliminate restrictive license clauses by relicensing under
permissive terms. In addition, we prototype an extensible rule engine that
encodes almost 200 SPDX and model-specific clauses for detecting license
conflicts, which can solve 86.4% of license conflicts in software applications.
To support future research, we release our dataset and the prototype engine.
Our study highlights license compliance as a critical governance challenge in
open-source AI and provides both the data and tools necessary to enable
automated, AI-aware compliance at scale.