Rumo às Melhores Práticas para Conjuntos de Dados Abertos para Treinamento de LLMTowards Best Practices for Open Datasets for LLM Training
Muitas empresas de IA estão treinando seus grandes modelos de linguagem (LLMs) em dados sem a permissão dos detentores dos direitos autorais. A permissibilidade desse procedimento varia de acordo com a jurisdição: em países como a UE e o Japão, isso é permitido sob certas restrições, enquanto nos Estados Unidos, o cenário legal é mais ambíguo. Independentemente do status legal, preocupações de produtores criativos resultaram em vários processos judiciais de direitos autorais de alto perfil, e a ameaça de litígio é frequentemente citada como motivo para a tendência recente de minimizar as informações compartilhadas sobre conjuntos de dados de treinamento por atores corporativos e de interesse público. Essa tendência de limitar as informações dos dados causa prejuízos ao dificultar a transparência, a responsabilidade e a inovação no ecossistema mais amplo, ao negar aos pesquisadores, auditores e indivíduos impactados o acesso às informações necessárias para entender os modelos de IA. Embora isso possa ser atenuado ao treinar modelos de linguagem em dados de acesso aberto e de domínio público, no momento da escrita, não existem tais modelos (treinados em uma escala significativa) devido aos substanciais desafios técnicos e sociológicos na montagem do corpus necessário. Esses desafios incluem metadados incompletos e não confiáveis, o custo e a complexidade da digitalização de registros físicos, e o conjunto diversificado de habilidades legais e técnicas necessárias para garantir relevância e responsabilidade em um cenário em rápida mudança. Avançar em direção a um futuro onde sistemas de IA possam ser treinados em dados com licenças abertas que sejam responsavelmente curados e governados requer colaboração entre domínios legais, técnicos e de políticas, juntamente com investimentos em padrões de metadados, digitalização e promoção de uma cultura de abertura.