A Incerteza é Frágil: Manipulando a Incerteza em Modelos de Linguagem Grandes

Resumo

Grandes Modelos de Linguagem (LLMs) são empregados em diversos domínios de alto risco, nos quais a confiabilidade de suas saídas é crucial. Um método comumente utilizado para avaliar a confiabilidade das respostas dos LLMs é a estimativa de incerteza, que avalia a probabilidade de suas respostas estarem corretas. Enquanto muitos estudos se concentram em melhorar a precisão das estimativas de incerteza para LLMs, nossa pesquisa investiga a fragilidade da estimativa de incerteza e explora possíveis ataques. Demonstramos que um atacante pode inserir uma porta dos fundos nos LLMs, que, quando ativada por um gatilho específico na entrada, manipula a incerteza do modelo sem afetar a saída final. Especificamente, o método de ataque de porta dos fundos proposto pode alterar a distribuição de probabilidade de saída de um LLM, fazendo com que a distribuição de probabilidade convirja para uma distribuição predefinida pelo atacante, garantindo que a previsão de maior probabilidade permaneça inalterada. Nossos resultados experimentais demonstram que esse ataque mina efetivamente a confiabilidade de autoavaliação do modelo em questões de múltipla escolha. Por exemplo, alcançamos uma taxa de sucesso de ataque (ASR) de 100% em três estratégias de acionamento diferentes em quatro modelos. Além disso, investigamos se essa manipulação se generaliza em diferentes prompts e domínios. Este trabalho destaca uma ameaça significativa à confiabilidade dos LLMs e enfatiza a necessidade de futuras defesas contra tais ataques. O código está disponível em https://github.com/qcznlp/uncertainty_attack.

English

Large Language Models (LLMs) are employed across various high-stakes domains, where the reliability of their outputs is crucial. One commonly used method to assess the reliability of LLMs' responses is uncertainty estimation, which gauges the likelihood of their answers being correct. While many studies focus on improving the accuracy of uncertainty estimations for LLMs, our research investigates the fragility of uncertainty estimation and explores potential attacks. We demonstrate that an attacker can embed a backdoor in LLMs, which, when activated by a specific trigger in the input, manipulates the model's uncertainty without affecting the final output. Specifically, the proposed backdoor attack method can alter an LLM's output probability distribution, causing the probability distribution to converge towards an attacker-predefined distribution while ensuring that the top-1 prediction remains unchanged. Our experimental results demonstrate that this attack effectively undermines the model's self-evaluation reliability in multiple-choice questions. For instance, we achieved a 100 attack success rate (ASR) across three different triggering strategies in four models. Further, we investigate whether this manipulation generalizes across different prompts and domains. This work highlights a significant threat to the reliability of LLMs and underscores the need for future defenses against such attacks. The code is available at https://github.com/qcznlp/uncertainty_attack.

A Incerteza é Frágil: Manipulando a Incerteza em Modelos de Linguagem Grandes

Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

Resumo

Support