Verso le Migliori Pratiche per i Dataset Aperti per l'Addestramento di Modelli Linguistici Long Short-Term Memory (LLM)Towards Best Practices for Open Datasets for LLM Training
Molte aziende di intelligenza artificiale stanno addestrando i loro grandi modelli linguistici (LLM) su dati senza il permesso dei proprietari dei diritti d'autore. La possibilità di farlo varia a seconda della giurisdizione: in paesi come l'UE e il Giappone, ciò è consentito sotto certe restrizioni, mentre negli Stati Uniti, il quadro legale è più ambiguo. Indipendentemente dallo stato legale, le preoccupazioni dei produttori creativi hanno portato a diversi ricorsi per violazione del copyright di alto profilo, e la minaccia di azioni legali è comunemente citata come motivo per il recente trend verso la minimizzazione delle informazioni condivise sui set di dati di addestramento sia da attori aziendali che di interesse pubblico. Questo trend nel limitare le informazioni sui dati causa danni ostacolando la trasparenza, la responsabilità e l'innovazione nell'ecosistema più ampio, negando ai ricercatori, agli ispettori e alle persone interessate l'accesso alle informazioni necessarie per comprendere i modelli di intelligenza artificiale. Sebbene ciò potrebbe essere mitigato addestrando i modelli linguistici su dati di accesso aperto e di pubblico dominio, al momento della stesura di questo testo, non esistono modelli del genere (addestrati su una scala significativa) a causa delle notevoli sfide tecniche e sociologiche nel comporre il corpus necessario. Queste sfide includono metadati incompleti e non affidabili, il costo e la complessità della digitalizzazione di documenti fisici e il variegato insieme di competenze legali e tecniche necessarie per garantire rilevanza e responsabilità in un panorama in rapida evoluzione. Costruire un futuro in cui i sistemi di intelligenza artificiale possano essere addestrati su dati con licenza aperta che siano curati e governati in modo responsabile richiede la collaborazione tra ambiti legali, tecnici e politici, insieme a investimenti in standard di metadati, digitalizzazione e alla promozione di una cultura dell'apertura.