面向LLM训练的开放数据集最佳实践指南Towards Best Practices for Open Datasets for LLM Training
许多人工智能公司正在未经版权所有者许可的情况下,对数据进行大规模语言模型(LLMs)的训练。这样做的可行性因司法管辖区而异:在欧盟和日本等国家,这在一定限制下是允许的,而在美国,法律环境更加模糊。无论法律地位如何,创意生产者的担忧导致了一些备受关注的版权诉讼,诉讼威胁通常被引用为最近趋势中减少企业和公益行为者分享有关训练数据集信息的原因。这种限制数据信息的趋势会通过拒绝研究人员、审计员和受影响个人获取理解人工智能模型所需信息,从而损害生态系统中的透明度、问责制和创新。 尽管通过在开放获取和公共领域数据上训练语言模型可以缓解这一问题,但在撰写本文时,由于在组装必要语料库方面存在重大技术和社会挑战,尚无此类模型(以有意义的规模进行训练)。这些挑战包括不完整和不可靠的元数据、数字化实体记录的成本和复杂性,以及确保在快速变化的环境中具有相关性和责任性所需的多样化的法律和技术技能。朝着未来的方向努力,即人工智能系统可以在负责任策划和管理的开放许可数据上进行训练,需要跨法律、技术和政策领域的合作,以及对元数据标准、数字化和培育开放文化的投资。