Sui Limiti Probatori dell'Inferenza di Appartenenza per la Verifica del Copyright

Abstract

Man mano che i grandi modelli linguistici (LLM) vengono addestrati su corpora sempre più opachi, gli attacchi di inferenza di appartenenza (MIA) sono stati proposti per verificare se testi protetti da copyright siano stati utilizzati durante l'addestramento, nonostante le crescenti preoccupazioni sulla loro affidabilità in condizioni realistiche. Ci chiediamo se i MIA possano costituire una prova ammissibile in dispute avversarie sul copyright, in cui uno sviluppatore di modelli accusato potrebbe oscurare i dati di addestramento preservandone il contenuto semantico, e formalizziamo questo scenario attraverso un protocollo di comunicazione giudice-pubblico ministero-accusato. Per testare la robustezza in questo protocollo, introduciamo SAGE (Structure-Aware SAE-Guided Extraction), un framework di parafrasaggio guidato da Autoencoder Sparse (SAE) che riscrive i dati di addestramento alterando la struttura lessicale mentre preserva il contenuto semantico e l'utilità per i compiti downstream. I nostri esperimenti mostrano che i MIA allo stato dell'arte si degradano quando i modelli vengono perfezionati (fine-tuning) su parafrasi generate da SAGE, indicando che i loro segnali non sono robusti alle trasformazioni che preservano la semantica. Sebbene una certa dispersione di informazioni permanga in alcuni regimi di fine-tuning, questi risultati suggeriscono che i MIA sono fragili in contesti avversari e insufficienti, da soli, come meccanismo autonomo per l'audit del copyright sugli LLM.

English

As large language models (LLMs) are trained on increasingly opaque corpora, membership inference attacks (MIAs) have been proposed to audit whether copyrighted texts were used during training, despite growing concerns about their reliability under realistic conditions. We ask whether MIAs can serve as admissible evidence in adversarial copyright disputes where an accused model developer may obfuscate training data while preserving semantic content, and formalize this setting through a judge-prosecutor-accused communication protocol. To test robustness under this protocol, we introduce SAGE (Structure-Aware SAE-Guided Extraction), a paraphrasing framework guided by Sparse Autoencoders (SAEs) that rewrites training data to alter lexical structure while preserving semantic content and downstream utility. Our experiments show that state-of-the-art MIAs degrade when models are fine-tuned on SAGE-generated paraphrases, indicating that their signals are not robust to semantics-preserving transformations. While some leakage remains in certain fine-tuning regimes, these results suggest that MIAs are brittle in adversarial settings and insufficient, on their own, as a standalone mechanism for copyright auditing of LLMs.

Sui Limiti Probatori dell'Inferenza di Appartenenza per la Verifica del Copyright

On the Evidentiary Limits of Membership Inference for Copyright Auditing

Abstract

Support