A Incerteza é Frágil: Manipulando a Incerteza em Modelos de Linguagem Grandes
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models
July 15, 2024
Autores: Qingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang
cs.AI
Resumo
Grandes Modelos de Linguagem (LLMs) são empregados em diversos domínios de alto risco, nos quais a confiabilidade de suas saídas é crucial. Um método comumente utilizado para avaliar a confiabilidade das respostas dos LLMs é a estimativa de incerteza, que avalia a probabilidade de suas respostas estarem corretas. Enquanto muitos estudos se concentram em melhorar a precisão das estimativas de incerteza para LLMs, nossa pesquisa investiga a fragilidade da estimativa de incerteza e explora possíveis ataques. Demonstramos que um atacante pode inserir uma porta dos fundos nos LLMs, que, quando ativada por um gatilho específico na entrada, manipula a incerteza do modelo sem afetar a saída final. Especificamente, o método de ataque de porta dos fundos proposto pode alterar a distribuição de probabilidade de saída de um LLM, fazendo com que a distribuição de probabilidade convirja para uma distribuição predefinida pelo atacante, garantindo que a previsão de maior probabilidade permaneça inalterada. Nossos resultados experimentais demonstram que esse ataque mina efetivamente a confiabilidade de autoavaliação do modelo em questões de múltipla escolha. Por exemplo, alcançamos uma taxa de sucesso de ataque (ASR) de 100% em três estratégias de acionamento diferentes em quatro modelos. Além disso, investigamos se essa manipulação se generaliza em diferentes prompts e domínios. Este trabalho destaca uma ameaça significativa à confiabilidade dos LLMs e enfatiza a necessidade de futuras defesas contra tais ataques. O código está disponível em https://github.com/qcznlp/uncertainty_attack.
English
Large Language Models (LLMs) are employed across various high-stakes domains,
where the reliability of their outputs is crucial. One commonly used method to
assess the reliability of LLMs' responses is uncertainty estimation, which
gauges the likelihood of their answers being correct. While many studies focus
on improving the accuracy of uncertainty estimations for LLMs, our research
investigates the fragility of uncertainty estimation and explores potential
attacks. We demonstrate that an attacker can embed a backdoor in LLMs, which,
when activated by a specific trigger in the input, manipulates the model's
uncertainty without affecting the final output. Specifically, the proposed
backdoor attack method can alter an LLM's output probability distribution,
causing the probability distribution to converge towards an attacker-predefined
distribution while ensuring that the top-1 prediction remains unchanged. Our
experimental results demonstrate that this attack effectively undermines the
model's self-evaluation reliability in multiple-choice questions. For instance,
we achieved a 100 attack success rate (ASR) across three different triggering
strategies in four models. Further, we investigate whether this manipulation
generalizes across different prompts and domains. This work highlights a
significant threat to the reliability of LLMs and underscores the need for
future defenses against such attacks. The code is available at
https://github.com/qcznlp/uncertainty_attack.