L'incertezza è fragile: manipolare l'incertezza nei modelli linguistici su larga scala.
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models
July 15, 2024
Autori: Qingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang
cs.AI
Abstract
I Large Language Model (LLM) sono impiegati in vari domini ad alto rischio, dove l'affidabilità dei loro output è cruciale. Un metodo comunemente utilizzato per valutare l'affidabilità delle risposte degli LLM è la stima dell'incertezza, che misura la probabilità che le loro risposte siano corrette. Mentre molti studi si concentrano sul miglioramento dell'accuratezza delle stime di incertezza per gli LLM, la nostra ricerca indaga la fragilità della stima dell'incertezza ed esplora potenziali attacchi. Dimostriamo che un attaccante può incorporare una backdoor negli LLM, che, quando attivata da un trigger specifico nell'input, manipola l'incertezza del modello senza influenzare l'output finale. Nello specifico, il metodo di attacco backdoor proposto può alterare la distribuzione di probabilità dell'output di un LLM, facendo sì che la distribuzione di probabilità converga verso una distribuzione predefinita dall'attaccante, garantendo al contempo che la predizione top-1 rimanga invariata. I nostri risultati sperimentali dimostrano che questo attacco compromette efficacemente l'affidabilità dell'autovalutazione del modello in domande a scelta multipla. Ad esempio, abbiamo ottenuto un tasso di successo dell'attacco (ASR) del 100% con tre diverse strategie di trigger in quattro modelli. Inoltre, indaghiamo se questa manipolazione si generalizza attraverso diversi prompt e domini. Questo lavoro evidenzia una minaccia significativa per l'affidabilità degli LLM e sottolinea la necessità di future difese contro tali attacchi. Il codice è disponibile all'indirizzo https://github.com/qcznlp/uncertainty_attack.
English
Large Language Models (LLMs) are employed across various high-stakes domains,
where the reliability of their outputs is crucial. One commonly used method to
assess the reliability of LLMs' responses is uncertainty estimation, which
gauges the likelihood of their answers being correct. While many studies focus
on improving the accuracy of uncertainty estimations for LLMs, our research
investigates the fragility of uncertainty estimation and explores potential
attacks. We demonstrate that an attacker can embed a backdoor in LLMs, which,
when activated by a specific trigger in the input, manipulates the model's
uncertainty without affecting the final output. Specifically, the proposed
backdoor attack method can alter an LLM's output probability distribution,
causing the probability distribution to converge towards an attacker-predefined
distribution while ensuring that the top-1 prediction remains unchanged. Our
experimental results demonstrate that this attack effectively undermines the
model's self-evaluation reliability in multiple-choice questions. For instance,
we achieved a 100 attack success rate (ASR) across three different triggering
strategies in four models. Further, we investigate whether this manipulation
generalizes across different prompts and domains. This work highlights a
significant threat to the reliability of LLMs and underscores the need for
future defenses against such attacks. The code is available at
https://github.com/qcznlp/uncertainty_attack.