Richtlinien für bewährte Verfahren bei offenen Datensätzen für das Training von LLMTowards Best Practices for Open Datasets for LLM Training
Viele KI-Unternehmen trainieren ihre großen Sprachmodelle (LLMs) ohne die Erlaubnis der Urheber der Daten. Die Zulässigkeit variiert je nach Rechtsprechung: In Ländern wie der EU und Japan ist dies unter bestimmten Einschränkungen erlaubt, während die rechtliche Lage in den Vereinigten Staaten unklarer ist. Unabhängig vom rechtlichen Status haben Bedenken von Kreativschaffenden zu mehreren prominenten Urheberrechtsklagen geführt, und die Bedrohung durch Rechtsstreitigkeiten wird häufig als Grund für den aktuellen Trend zur Minimierung der Informationen über Trainingsdatensätze sowohl von Unternehmens- als auch von öffentlichen Interessengruppen genannt. Diese Tendenz zur Begrenzung von Dateninformationen schadet, indem sie Transparenz, Rechenschaftspflicht und Innovation im breiteren Ökosystem behindert, da Forschern, Prüfern und betroffenen Personen der Zugang zu den Informationen verwehrt wird, die benötigt werden, um KI-Modelle zu verstehen. Dies könnte durch das Training von Sprachmodellen mit frei zugänglichen und gemeinfreien Daten gemildert werden, aber zum Zeitpunkt der Abfassung gibt es keine solchen Modelle (die in signifikantem Umfang trainiert wurden) aufgrund der erheblichen technischen und soziologischen Herausforderungen beim Zusammenstellen des erforderlichen Korpus. Diese Herausforderungen umfassen unvollständige und unzuverlässige Metadaten, die Kosten und Komplexität der Digitalisierung physischer Aufzeichnungen und die vielfältigen rechtlichen und technischen Fähigkeiten, die erforderlich sind, um Relevanz und Verantwortung in einem sich schnell verändernden Umfeld sicherzustellen. Die Entwicklung hin zu einer Zukunft, in der KI-Systeme auf offen lizenzierten Daten trainiert werden können, die verantwortungsbewusst kuratiert und verwaltet werden, erfordert eine Zusammenarbeit über rechtliche, technische und politische Bereiche hinweg sowie Investitionen in Metadatenstandards, Digitalisierung und die Förderung einer Kultur der Offenheit.