大規模言語モデルの忘却手法の比較分析:アーキテクチャ横断的評価
Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation
December 15, 2025
著者: Richard J. Young
cs.AI
要旨
大規模言語モデルにおける安全性調整機構は、学習された拒否行動を通じて有害な問い合わせへの応答を防止するが、これらの同じ機構が認知モデリング、敵対的テスト、セキュリティ分析を含む正当な研究応用を妨げている。アブリテレーション技術は方向直交化による拒否表現の外科的除去を可能にするが、利用可能な実装の相対的有效性は未解明である。本研究は4つのアブリテレーションツール(Heretic、DECCP、ErisForge、FailSpy)を16の指示チューニング済みモデル(7B-14Bパラメータ)で評価し、全16モデルにおけるツール互換性と、ツールサポートによって決定されたサブセットでの定量的指標を報告する。単一パス法はベンチマーク対象サブセットにおいて優れた能力維持を示し(3モデル平均GSM8K変化:ErisForge -0.28 pp、DECCP -0.13 pp)、ベイズ最適化アブリテレーションはモデル依存的な能力影響を伴う可変的な分布シフト(KLダイバージェンス:0.043-1.646)を生じた。これらの知見は、多様なモデルアーキテクチャにわたるアブリテレーションツール導入のための証拠に基づく選択基準を研究者に提供する。主要な発見として、数学的推論能力がアブリテレーション介入に対して最高の感受性を示し、ツール選択とモデルアーキテクチャに依存してGSM8K変化が+1.51 ppから-18.81 pp(相対変化-26.5%)の範囲に及ぶことが明らかとなった。
English
Safety alignment mechanisms in large language models prevent responses to harmful queries through learned refusal behavior, yet these same mechanisms impede legitimate research applications including cognitive modeling, adversarial testing, and security analysis. While abliteration techniques enable surgical removal of refusal representations through directional orthogonalization, the relative effectiveness of available implementations remains uncharacterized. This study evaluates four abliteration tools (Heretic, DECCP, ErisForge, FailSpy) across sixteen instruction-tuned models (7B-14B parameters), reporting tool compatibility on all 16 models and quantitative metrics on subsets dictated by tool support. Single-pass methods demonstrated superior capability preservation on the benchmarked subset (avg GSM8K change across three models: ErisForge -0.28 pp; DECCP -0.13 pp), while Bayesian-optimized abliteration produced variable distribution shift (KL divergence: 0.043-1.646) with model-dependent capability impact. These findings provide researchers with evidence-based selection criteria for abliteration tool deployment across diverse model architectures. The principal finding indicates that mathematical reasoning capabilities exhibit the highest sensitivity to abliteration interventions, with GSM8K change ranging from +1.51 pp to -18.81 pp (-26.5% relative) depending on tool selection and model architecture.