К лучшим практикам использования открытых наборов данных для обучения моделей языкового моделирования.Towards Best Practices for Open Datasets for LLM Training
Многие компании по искусственному интеллекту обучают свои большие языковые модели (LLM) на данных без разрешения владельцев авторских прав. Допустимость таких действий варьируется в зависимости от юрисдикции: в странах, таких как ЕС и Япония, это разрешено при определенных ограничениях, в то время как в Соединенных Штатах юридическая обстановка более неоднозначна. Независимо от юридического статуса, опасения со стороны творческих производителей привели к нескольким знаковым судебным разбирательствам по вопросам авторских прав, и угроза судебных разбирательств часто упоминается как причина последнего тренда к минимизации информации, раскрываемой о наборах данных для обучения как корпоративными, так и общественными участниками. Этот тренд ограничения информации о данных наносит вред, затрудняя прозрачность, ответственность и инновации в широкой экосистеме, отказывая исследователям, аудиторам и затронутым лицам доступ к информации, необходимой для понимания моделей искусственного интеллекта. Хотя это можно было бы смягчить, обучая языковые модели на открытых и общедоступных данных, на момент написания нет таких моделей (обученных в значительном масштабе) из-за существенных технических и социологических вызовов в сборе необходимого корпуса. Эти вызовы включают неполные и ненадежные метаданные, стоимость и сложность цифровизации физических записей, а также разнообразие юридических и технических навыков, необходимых для обеспечения актуальности и ответственности в быстро меняющейся обстановке. Достижение будущего, в котором системы искусственного интеллекта могут обучаться на открытых лицензионных данных, которые ответственно курируются и управляются, требует совместной работы в области юридических, технических и политических сферах, а также инвестиций в стандарты метаданных, цифровизацию и формирование культуры открытости.