朝向用於大型語言模型訓練的開放數據集最佳實踐Towards Best Practices for Open Datasets for LLM Training
許多人工智慧公司正在未經版權所有者許可的情況下,對大型語言模型(LLMs)進行訓練。這樣做的可行性因司法管轄範圍而異:在歐盟和日本等國家,這在一定限制下是被允許的,而在美國,法律環境則更加模糊。無論法律地位如何,來自創意生產者的擔憂已導致多起知名的版權訴訟,訴訟威脅通常被引用為最近限制企業和公眾利益行為者分享訓練數據集信息的趨勢的原因。這種限制數據信息的趨勢對於阻礙廣泛生態系統中的透明度、責任和創新造成了傷害,因為這樣做剝奪了研究人員、審計人員和受影響個人瞭解人工智慧模型所需信息的訪問權。 儘管這可能通過在開放訪問和公共領域數據上訓練語言模型來緩解,但在撰寫本文時,由於組建必要語料庫所面臨的重大技術和社會挑戰,目前尚無此類模型(在有意義的規模上進行訓練)。這些挑戰包括不完整和不可靠的元數據、將實體記錄數字化的成本和複雜性,以及確保在快速變化的環境中具有相關性和責任性所需的多樣化法律和技術技能。朝著未來的方向努力,人工智慧系統可以在負責任策劃和管理的開放許可數據上進行訓練,這需要跨法律、技術和政策領域的合作,以及對元數據標準、數字化和促進開放文化的投資。