Projeto Alexandria: Rumo à Liberação do Conhecimento Científico dos Ônus de Direitos Autorais por Meio de Modelos de Linguagem de Longo Prazo (LLMs)
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs
February 26, 2025
Autores: Christoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge
cs.AI
Resumo
Barreiras de pagamento, licenças e regras de direitos autorais frequentemente restringem a ampla disseminação e reutilização do conhecimento científico. Defendemos a posição de que é tanto legal quanto tecnicamente viável extrair o conhecimento científico em textos acadêmicos. Métodos atuais, como incorporação de texto, falham em preservar de forma confiável o conteúdo factual, e simples parafraseamentos podem não ser juridicamente sólidos. Instamos a comunidade a adotar uma nova ideia: converter documentos acadêmicos em Unidades de Conhecimento usando LLMs. Essas unidades utilizam dados estruturados que capturam entidades, atributos e relacionamentos sem conteúdo estilístico. Apresentamos evidências de que as Unidades de Conhecimento: (1) constituem um arcabouço legalmente defensável para compartilhar conhecimento de textos de pesquisa protegidos por direitos autorais, com base em análises legais da lei de direitos autorais alemã e da doutrina de Fair Use dos EUA, e (2) preservam a maioria (~95%) do conhecimento factual do texto original, medido pelo desempenho em questões de múltipla escolha sobre fatos do texto original protegido por direitos autorais em quatro domínios de pesquisa. Libertar o conhecimento científico dos direitos autorais promete benefícios transformadores para a pesquisa científica e educação, permitindo que modelos de linguagem reutilizem fatos importantes de textos protegidos por direitos autorais. Para apoiar isso, compartilhamos ferramentas de código aberto para converter documentos de pesquisa em Unidades de Conhecimento. No geral, nosso trabalho postula a viabilidade de democratizar o acesso ao conhecimento científico respeitando os direitos autorais.
English
Paywalls, licenses and copyright rules often restrict the broad dissemination
and reuse of scientific knowledge. We take the position that it is both legally
and technically feasible to extract the scientific knowledge in scholarly
texts. Current methods, like text embeddings, fail to reliably preserve factual
content, and simple paraphrasing may not be legally sound. We urge the
community to adopt a new idea: convert scholarly documents into Knowledge Units
using LLMs. These units use structured data capturing entities, attributes and
relationships without stylistic content. We provide evidence that Knowledge
Units: (1) form a legally defensible framework for sharing knowledge from
copyrighted research texts, based on legal analyses of German copyright law and
U.S. Fair Use doctrine, and (2) preserve most (~95%) factual knowledge from
original text, measured by MCQ performance on facts from the original
copyrighted text across four research domains. Freeing scientific knowledge
from copyright promises transformative benefits for scientific research and
education by allowing language models to reuse important facts from copyrighted
text. To support this, we share open-source tools for converting research
documents into Knowledge Units. Overall, our work posits the feasibility of
democratizing access to scientific knowledge while respecting copyright.Summary
AI-Generated Summary