LLMトレーニング用オープンデータセットのベストプラクティスに向けてTowards Best Practices for Open Datasets for LLM Training
多くのAI企業は、著作権所有者の許可を得ずにデータ上で大規模言語モデル(LLM)を訓練しています。これに対する許容性は、司法管轄区によって異なります。EUや日本などの国では、一定の制約の下でこれが許可されていますが、アメリカ合衆国では法的状況がより曖昧です。法的地位に関わらず、クリエイティブプロデューサーからの懸念がいくつかの著作権訴訟につながり、訴訟の脅威は、最近のトレンドが企業や公益団体の両方によって訓練データセットに関する情報を最小限にする理由として一般的に引用されています。データ情報の制限トレンドは、研究者、監査人、および影響を受ける個人がAIモデルを理解するために必要な情報へのアクセスを拒否することで、透明性、説明責任、および広範なエコシステムにおける革新を妨げる害をもたらします。 これは、オープンアクセスおよびパブリックドメインデータで言語モデルを訓練することで緩和される可能性がありますが、執筆時点では、必要なコーパスを組み立てるための著しい技術的および社会的課題のため、そのようなモデルは(意義のあるスケールで訓練されたものは)存在しません。これらの課題には、不完全で信頼性のないメタデータ、物理的記録のデジタル化のコストと複雑さ、迅速に変化する状況で関連性と責任を確保するために必要な多様な法的および技術的スキルセットが含まれます。AIシステムが責任を持ってキュレーションおよび管理されたオープンライセンスデータで訓練される未来に向けて構築するには、法的、技術的、および政策領域を横断する協力が必要であり、メタデータ標準、デジタル化、およびオープンな文化の育成への投資が必要です。