LLMにおける記憶化の風景:メカニズム、測定、および緩和策
The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation
July 8, 2025
著者: Alexander Xiong, Xuandong Zhao, Aneesh Pappu, Dawn Song
cs.AI
要旨
大規模言語モデル(LLMs)は、幅広いタスクにおいて顕著な能力を発揮しているが、同時にその訓練データの記憶化も示すことが明らかになっている。この現象は、モデルの挙動、プライバシーリスク、および学習と記憶化の境界に関する重要な疑問を提起する。これらの懸念に対処するため、本論文では最近の研究を統合し、記憶化の現状、それに影響を与える要因、およびその検出と緩和の方法について調査する。訓練データの重複、訓練ダイナミクス、ファインチューニング手順など、データ記憶化に影響を与える主要な要因を探る。さらに、プレフィックスベースの抽出、メンバーシップ推論、敵対的プロンプティングなどの手法を検討し、記憶化された内容の検出と測定における有効性を評価する。技術的な分析を超えて、記憶化の法的および倫理的含意など、より広範な影響についても探求する。最後に、データクリーニング、差分プライバシー、訓練後の忘却など、有害な記憶化の最小化と有用性のバランスを取るための緩和策について議論し、未解決の課題を指摘する。本論文は、技術的、プライバシー、性能の側面からLLMの記憶化に関する研究の現状を包括的に概観し、今後の研究の重要な方向性を提示する。
English
Large Language Models (LLMs) have demonstrated remarkable capabilities across
a wide range of tasks, yet they also exhibit memorization of their training
data. This phenomenon raises critical questions about model behavior, privacy
risks, and the boundary between learning and memorization. Addressing these
concerns, this paper synthesizes recent studies and investigates the landscape
of memorization, the factors influencing it, and methods for its detection and
mitigation. We explore key drivers, including training data duplication,
training dynamics, and fine-tuning procedures that influence data memorization.
In addition, we examine methodologies such as prefix-based extraction,
membership inference, and adversarial prompting, assessing their effectiveness
in detecting and measuring memorized content. Beyond technical analysis, we
also explore the broader implications of memorization, including the legal and
ethical implications. Finally, we discuss mitigation strategies, including data
cleaning, differential privacy, and post-training unlearning, while
highlighting open challenges in balancing the minimization of harmful
memorization with utility. This paper provides a comprehensive overview of the
current state of research on LLM memorization across technical, privacy, and
performance dimensions, identifying critical directions for future work.