Sobre os Limites Probatórios da Inferência de Associação para Auditoria de Direitos Autorais

Resumo

À medida que os modelos de linguagem de grande escala (LLMs) são treinados em corpora cada vez mais opacos, os ataques de inferência de associação (MIAs) foram propostos para auditar se textos protegidos por direitos autorais foram utilizados durante o treinamento, apesar das crescentes preocupações sobre sua confiabilidade em condições realistas. Investigamos se os MIAs podem servir como evidência admissível em disputas de direitos autorais adversariais, nas quais um desenvolvedor de modelo acusado pode ofuscar os dados de treinamento preservando o conteúdo semântico, e formalizamos este cenário através de um protocolo de comunicação juiz-promotor-acusado. Para testar a robustez sob este protocolo, introduzimos o SAGE (Structure-Aware SAE-Guided Extraction), uma estrutura de parafraseamento guiada por Autoencoders Esparsos (SAEs) que reescreve os dados de treinamento para alterar a estrutura lexical enquanto preserva o conteúdo semântico e a utilidade subsequente. Nossos experimentos mostram que os MIAs de última geração degradam-se quando os modelos são ajustados com paráfrases geradas pelo SAGE, indicando que seus sinais não são robustos a transformações que preservam a semântica. Embora alguma perda de informação permaneça em certos regimes de ajuste fino, estes resultados sugerem que os MIAs são frágeis em cenários adversariais e insuficientes, por si só, como um mecanismo autônomo para auditoria de direitos autorais em LLMs.

English

As large language models (LLMs) are trained on increasingly opaque corpora, membership inference attacks (MIAs) have been proposed to audit whether copyrighted texts were used during training, despite growing concerns about their reliability under realistic conditions. We ask whether MIAs can serve as admissible evidence in adversarial copyright disputes where an accused model developer may obfuscate training data while preserving semantic content, and formalize this setting through a judge-prosecutor-accused communication protocol. To test robustness under this protocol, we introduce SAGE (Structure-Aware SAE-Guided Extraction), a paraphrasing framework guided by Sparse Autoencoders (SAEs) that rewrites training data to alter lexical structure while preserving semantic content and downstream utility. Our experiments show that state-of-the-art MIAs degrade when models are fine-tuned on SAGE-generated paraphrases, indicating that their signals are not robust to semantics-preserving transformations. While some leakage remains in certain fine-tuning regimes, these results suggest that MIAs are brittle in adversarial settings and insufficient, on their own, as a standalone mechanism for copyright auditing of LLMs.

Sobre os Limites Probatórios da Inferência de Associação para Auditoria de Direitos Autorais

On the Evidentiary Limits of Membership Inference for Copyright Auditing

Resumo

Support