不確実性は脆い:大規模言語モデルにおける不確実性の操作
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models
July 15, 2024
著者: Qingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang
cs.AI
要旨
大規模言語モデル(LLMs)は、その出力の信頼性が極めて重要な様々な高リスク領域で使用されています。LLMsの応答の信頼性を評価するために一般的に用いられる方法の一つが、不確実性推定です。これは、モデルの回答が正しい可能性を測定するものです。多くの研究がLLMsの不確実性推定の精度向上に焦点を当てる中、本研究では不確実性推定の脆弱性を調査し、潜在的な攻撃手法を探求します。我々は、攻撃者がLLMsにバックドアを埋め込むことが可能であり、入力中の特定のトリガーによって活性化された場合、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを実証します。具体的には、提案するバックドア攻撃手法は、LLMsの出力確率分布を変更し、確率分布を攻撃者が事前に定義した分布に収束させながら、トップ1の予測が変わらないようにすることができます。我々の実験結果は、この攻撃が多肢選択問題におけるモデルの自己評価信頼性を効果的に損なうことを示しています。例えば、4つのモデルにおいて3つの異なるトリガー戦略で100%の攻撃成功率(ASR)を達成しました。さらに、この操作が異なるプロンプトやドメインにわたって一般化するかどうかを調査します。本研究は、LLMsの信頼性に対する重大な脅威を浮き彫りにし、このような攻撃に対する将来の防御策の必要性を強調します。コードはhttps://github.com/qcznlp/uncertainty_attackで公開されています。
English
Large Language Models (LLMs) are employed across various high-stakes domains,
where the reliability of their outputs is crucial. One commonly used method to
assess the reliability of LLMs' responses is uncertainty estimation, which
gauges the likelihood of their answers being correct. While many studies focus
on improving the accuracy of uncertainty estimations for LLMs, our research
investigates the fragility of uncertainty estimation and explores potential
attacks. We demonstrate that an attacker can embed a backdoor in LLMs, which,
when activated by a specific trigger in the input, manipulates the model's
uncertainty without affecting the final output. Specifically, the proposed
backdoor attack method can alter an LLM's output probability distribution,
causing the probability distribution to converge towards an attacker-predefined
distribution while ensuring that the top-1 prediction remains unchanged. Our
experimental results demonstrate that this attack effectively undermines the
model's self-evaluation reliability in multiple-choice questions. For instance,
we achieved a 100 attack success rate (ASR) across three different triggering
strategies in four models. Further, we investigate whether this manipulation
generalizes across different prompts and domains. This work highlights a
significant threat to the reliability of LLMs and underscores the need for
future defenses against such attacks. The code is available at
https://github.com/qcznlp/uncertainty_attack.Summary
AI-Generated Summary