Unsicherheit ist zerbrechlich: Manipulation von Unsicherheit in großen Sprachmodellen.
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models
July 15, 2024
Autoren: Qingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden in verschiedenen sensiblen Bereichen eingesetzt, in denen die Zuverlässigkeit ihrer Ausgaben entscheidend ist. Eine häufig verwendete Methode zur Bewertung der Zuverlässigkeit der Antworten von LLMs ist die Unsicherheitsschätzung, die die Wahrscheinlichkeit bewertet, dass ihre Antworten korrekt sind. Während viele Studien darauf abzielen, die Genauigkeit der Unsicherheitsschätzungen für LLMs zu verbessern, untersucht unsere Forschung die Fragilität der Unsicherheitsschätzung und erforscht potenzielle Angriffe. Wir zeigen, dass ein Angreifer einen Backdoor in LLMs einbetten kann, der durch einen spezifischen Auslöser in der Eingabe aktiviert wird und die Unsicherheit des Modells manipuliert, ohne die endgültige Ausgabe zu beeinflussen. Konkret kann die vorgeschlagene Backdoor-Angriffsmethode die Ausgabewahrscheinlichkeitsverteilung eines LLMs verändern, wodurch die Wahrscheinlichkeitsverteilung gegen eine vom Angreifer vordefinierte Verteilung konvergiert, während die Top-1-Vorhersage unverändert bleibt. Unsere experimentellen Ergebnisse zeigen, dass dieser Angriff die Selbstbewertungszuverlässigkeit des Modells bei Multiple-Choice-Fragen effektiv untergräbt. Beispielsweise erzielten wir eine Erfolgsrate des Angriffs (ASR) von 100 % bei drei verschiedenen Auslösestrategien in vier Modellen. Darüber hinaus untersuchen wir, ob diese Manipulation auf verschiedene Eingabeaufforderungen und Bereiche verallgemeinert werden kann. Diese Arbeit verdeutlicht eine bedeutende Bedrohung für die Zuverlässigkeit von LLMs und betont die Notwendigkeit zukünftiger Abwehrmaßnahmen gegen solche Angriffe. Der Code ist verfügbar unter https://github.com/qcznlp/uncertainty_attack.
English
Large Language Models (LLMs) are employed across various high-stakes domains,
where the reliability of their outputs is crucial. One commonly used method to
assess the reliability of LLMs' responses is uncertainty estimation, which
gauges the likelihood of their answers being correct. While many studies focus
on improving the accuracy of uncertainty estimations for LLMs, our research
investigates the fragility of uncertainty estimation and explores potential
attacks. We demonstrate that an attacker can embed a backdoor in LLMs, which,
when activated by a specific trigger in the input, manipulates the model's
uncertainty without affecting the final output. Specifically, the proposed
backdoor attack method can alter an LLM's output probability distribution,
causing the probability distribution to converge towards an attacker-predefined
distribution while ensuring that the top-1 prediction remains unchanged. Our
experimental results demonstrate that this attack effectively undermines the
model's self-evaluation reliability in multiple-choice questions. For instance,
we achieved a 100 attack success rate (ASR) across three different triggering
strategies in four models. Further, we investigate whether this manipulation
generalizes across different prompts and domains. This work highlights a
significant threat to the reliability of LLMs and underscores the need for
future defenses against such attacks. The code is available at
https://github.com/qcznlp/uncertainty_attack.Summary
AI-Generated Summary