ChatPaper.aiChatPaper

저작권 감사에서 멤버십 추론의 증거적 한계에 관하여

On the Evidentiary Limits of Membership Inference for Copyright Auditing

January 19, 2026
저자: Murat Bilgehan Ertan, Emirhan Böge, Min Chen, Kaleel Mahmood, Marten van Dijk
cs.AI

초록

대규모 언어 모델(LLM)이 점점 더 불투명한 코퍼스로 훈련됨에 따라, 훈련 과정에서 저작권이 있는 텍스트가 사용되었는지 감사하기 위해 멤버십 추론 공격(MIA)이 제안되었지만, 현실적인 조건에서의 신뢰성에 대한 우려가 커지고 있습니다. 본 연구는 MIA가 적대적 저작권 분쟁에서 증거로 채택될 수 있는지 검토합니다. 이러한 분쟁 상황에서는 피고인인 모델 개발자가 의미 내용을 보존하면서 훈련 데이터를 은폐할 수 있으며, 우리는 이를 재판관-검사-피고인 통신 프로토콜을 통해 정형화합니다. 이 프로토콜 하에서 강건성을 테스트하기 위해, 우리는 SAGE(Structure-Aware SAE-Guided Extraction)를 소개합니다. SAGE는 Sparse Autoencoder(SAE)에 기반한 패러프레이징 프레임워크로, 어휘 구조를 변경하지만 의미 내용과 하류 작업 유용성은 보존하도록 훈련 데이터를 재구성합니다. 우리의 실험 결과, SAGE로 생성된 패러프레이즈로 모델을 미세 조정할 경우 최신 MIA의 성능이 저하되어, 해당 공격의 신호가 의미 보존 변환에 대해 강건하지 않음을 보여줍니다. 일부 미세 조정 방식에서 어느 정도의 정보 누출이 남아 있기는 하지만, 이러한 결과는 MIA가 적대적 환경에서 취약하며 LLM 저작권 감사를 위한 독립적인 메커니즘으로는 그 자체로 불충분함을 시사합니다.
English
As large language models (LLMs) are trained on increasingly opaque corpora, membership inference attacks (MIAs) have been proposed to audit whether copyrighted texts were used during training, despite growing concerns about their reliability under realistic conditions. We ask whether MIAs can serve as admissible evidence in adversarial copyright disputes where an accused model developer may obfuscate training data while preserving semantic content, and formalize this setting through a judge-prosecutor-accused communication protocol. To test robustness under this protocol, we introduce SAGE (Structure-Aware SAE-Guided Extraction), a paraphrasing framework guided by Sparse Autoencoders (SAEs) that rewrites training data to alter lexical structure while preserving semantic content and downstream utility. Our experiments show that state-of-the-art MIAs degrade when models are fine-tuned on SAGE-generated paraphrases, indicating that their signals are not robust to semantics-preserving transformations. While some leakage remains in certain fine-tuning regimes, these results suggest that MIAs are brittle in adversarial settings and insufficient, on their own, as a standalone mechanism for copyright auditing of LLMs.
PDF21January 22, 2026