ChatPaper.aiChatPaper

L'incertitude est fragile : Manipuler l'incertitude dans les grands modèles de langage

Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

July 15, 2024
Auteurs: Qingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang
cs.AI

Résumé

Les grands modèles de langage (LLMs) sont utilisés dans divers domaines à enjeux élevés, où la fiabilité de leurs sorties est cruciale. Une méthode couramment employée pour évaluer la fiabilité des réponses des LLMs est l'estimation de l'incertitude, qui mesure la probabilité que leurs réponses soient correctes. Alors que de nombreuses études se concentrent sur l'amélioration de la précision des estimations d'incertitude pour les LLMs, notre recherche examine la fragilité de l'estimation de l'incertitude et explore des attaques potentielles. Nous démontrons qu'un attaquant peut intégrer une porte dérobée dans les LLMs, qui, lorsqu'elle est activée par un déclencheur spécifique dans l'entrée, manipule l'incertitude du modèle sans affecter la sortie finale. Plus précisément, la méthode d'attaque par porte dérobée proposée peut modifier la distribution de probabilité des sorties d'un LLM, faisant converger la distribution de probabilité vers une distribution prédéfinie par l'attaquant tout en garantissant que la prédiction top-1 reste inchangée. Nos résultats expérimentaux montrent que cette attaque compromet efficacement la fiabilité de l'auto-évaluation du modèle dans les questions à choix multiples. Par exemple, nous avons atteint un taux de réussite d'attaque (ASR) de 100 % avec trois stratégies de déclenchement différentes dans quatre modèles. De plus, nous étudions si cette manipulation se généralise à différents prompts et domaines. Ce travail met en lumière une menace significative pour la fiabilité des LLMs et souligne la nécessité de développer des défenses futures contre de telles attaques. Le code est disponible à l'adresse suivante : https://github.com/qcznlp/uncertainty_attack.
English
Large Language Models (LLMs) are employed across various high-stakes domains, where the reliability of their outputs is crucial. One commonly used method to assess the reliability of LLMs' responses is uncertainty estimation, which gauges the likelihood of their answers being correct. While many studies focus on improving the accuracy of uncertainty estimations for LLMs, our research investigates the fragility of uncertainty estimation and explores potential attacks. We demonstrate that an attacker can embed a backdoor in LLMs, which, when activated by a specific trigger in the input, manipulates the model's uncertainty without affecting the final output. Specifically, the proposed backdoor attack method can alter an LLM's output probability distribution, causing the probability distribution to converge towards an attacker-predefined distribution while ensuring that the top-1 prediction remains unchanged. Our experimental results demonstrate that this attack effectively undermines the model's self-evaluation reliability in multiple-choice questions. For instance, we achieved a 100 attack success rate (ASR) across three different triggering strategies in four models. Further, we investigate whether this manipulation generalizes across different prompts and domains. This work highlights a significant threat to the reliability of LLMs and underscores the need for future defenses against such attacks. The code is available at https://github.com/qcznlp/uncertainty_attack.

Summary

AI-Generated Summary

PDF12November 28, 2024