Onzekerheid is fragiel: het manipuleren van onzekerheid in grote taalmodellen
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models
July 15, 2024
Auteurs: Qingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) worden ingezet in diverse hoogrisicodomeinen, waar de betrouwbaarheid van hun uitvoer cruciaal is. Een veelgebruikte methode om de betrouwbaarheid van de antwoorden van LLMs te beoordelen is onzekerheidsschatting, die de waarschijnlijkheid inschat dat hun antwoorden correct zijn. Terwijl veel studies zich richten op het verbeteren van de nauwkeurigheid van onzekerheidsschattingen voor LLMs, onderzoekt ons onderzoek de kwetsbaarheid van onzekerheidsschatting en verkent het mogelijke aanvallen. We tonen aan dat een aanvaller een achterdeur kan inbouwen in LLMs, die, wanneer geactiveerd door een specifieke trigger in de invoer, de onzekerheid van het model manipuleert zonder de uiteindelijke uitvoer te beïnvloeden. Specifiek kan de voorgestelde achterdeuraanvalmethode de uitvoerwaarschijnlijkheidsverdeling van een LLM veranderen, waardoor de waarschijnlijkheidsverdeling convergeert naar een door de aanvaller vooraf gedefinieerde verdeling, terwijl wordt gegarandeerd dat de top-1 voorspelling ongewijzigd blijft. Onze experimentele resultaten tonen aan dat deze aanval de zelfevaluatiebetrouwbaarheid van het model effectief ondermijnt bij meerkeuzevragen. Zo behaalden we bijvoorbeeld een 100% aanvalsuccespercentage (ASR) bij drie verschillende triggerstrategieën in vier modellen. Verder onderzoeken we of deze manipulatie generaliseert over verschillende prompts en domeinen. Dit werk belicht een significante bedreiging voor de betrouwbaarheid van LLMs en benadrukt de noodzaak van toekomstige verdedigingen tegen dergelijke aanvallen. De code is beschikbaar op https://github.com/qcznlp/uncertainty_attack.
English
Large Language Models (LLMs) are employed across various high-stakes domains,
where the reliability of their outputs is crucial. One commonly used method to
assess the reliability of LLMs' responses is uncertainty estimation, which
gauges the likelihood of their answers being correct. While many studies focus
on improving the accuracy of uncertainty estimations for LLMs, our research
investigates the fragility of uncertainty estimation and explores potential
attacks. We demonstrate that an attacker can embed a backdoor in LLMs, which,
when activated by a specific trigger in the input, manipulates the model's
uncertainty without affecting the final output. Specifically, the proposed
backdoor attack method can alter an LLM's output probability distribution,
causing the probability distribution to converge towards an attacker-predefined
distribution while ensuring that the top-1 prediction remains unchanged. Our
experimental results demonstrate that this attack effectively undermines the
model's self-evaluation reliability in multiple-choice questions. For instance,
we achieved a 100 attack success rate (ASR) across three different triggering
strategies in four models. Further, we investigate whether this manipulation
generalizes across different prompts and domains. This work highlights a
significant threat to the reliability of LLMs and underscores the need for
future defenses against such attacks. The code is available at
https://github.com/qcznlp/uncertainty_attack.