ChatPaper.aiChatPaper

LLMにおける記憶化の風景:メカニズム、測定、および緩和策

The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation

July 8, 2025
著者: Alexander Xiong, Xuandong Zhao, Aneesh Pappu, Dawn Song
cs.AI

要旨

大規模言語モデル(LLMs)は、幅広いタスクにおいて顕著な能力を発揮しているが、同時にその訓練データの記憶化も示すことが明らかになっている。この現象は、モデルの挙動、プライバシーリスク、および学習と記憶化の境界に関する重要な疑問を提起する。これらの懸念に対処するため、本論文では最近の研究を統合し、記憶化の現状、それに影響を与える要因、およびその検出と緩和の方法について調査する。訓練データの重複、訓練ダイナミクス、ファインチューニング手順など、データ記憶化に影響を与える主要な要因を探る。さらに、プレフィックスベースの抽出、メンバーシップ推論、敵対的プロンプティングなどの手法を検討し、記憶化された内容の検出と測定における有効性を評価する。技術的な分析を超えて、記憶化の法的および倫理的含意など、より広範な影響についても探求する。最後に、データクリーニング、差分プライバシー、訓練後の忘却など、有害な記憶化の最小化と有用性のバランスを取るための緩和策について議論し、未解決の課題を指摘する。本論文は、技術的、プライバシー、性能の側面からLLMの記憶化に関する研究の現状を包括的に概観し、今後の研究の重要な方向性を提示する。
English
Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks, yet they also exhibit memorization of their training data. This phenomenon raises critical questions about model behavior, privacy risks, and the boundary between learning and memorization. Addressing these concerns, this paper synthesizes recent studies and investigates the landscape of memorization, the factors influencing it, and methods for its detection and mitigation. We explore key drivers, including training data duplication, training dynamics, and fine-tuning procedures that influence data memorization. In addition, we examine methodologies such as prefix-based extraction, membership inference, and adversarial prompting, assessing their effectiveness in detecting and measuring memorized content. Beyond technical analysis, we also explore the broader implications of memorization, including the legal and ethical implications. Finally, we discuss mitigation strategies, including data cleaning, differential privacy, and post-training unlearning, while highlighting open challenges in balancing the minimization of harmful memorization with utility. This paper provides a comprehensive overview of the current state of research on LLM memorization across technical, privacy, and performance dimensions, identifying critical directions for future work.
PDF51July 9, 2025