La Incertidumbre es Frágil: Manipulando la Incertidumbre en Modelos de Lenguaje Grandes
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models
July 15, 2024
Autores: Qingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Tamaño (LLMs) se emplean en diversos ámbitos de alto riesgo, donde la fiabilidad de sus resultados es crucial. Un método comúnmente utilizado para evaluar la fiabilidad de las respuestas de los LLMs es la estimación de incertidumbre, que mide la probabilidad de que sus respuestas sean correctas. Mientras que muchos estudios se centran en mejorar la precisión de las estimaciones de incertidumbre para los LLMs, nuestra investigación examina la fragilidad de la estimación de incertidumbre y explora posibles ataques. Demostramos que un atacante puede incrustar un backdoor en los LLMs, que, al activarse por un desencadenante específico en la entrada, manipula la incertidumbre del modelo sin afectar la salida final. Específicamente, el método de ataque de backdoor propuesto puede alterar la distribución de probabilidad de salida de un LLM, haciendo que la distribución de probabilidad converja hacia una distribución predefinida por el atacante mientras se asegura de que la predicción principal (top-1) permanezca inalterada. Nuestros resultados experimentales demuestran que este ataque socava efectivamente la fiabilidad de autoevaluación del modelo en preguntas de opción múltiple. Por ejemplo, logramos una tasa de éxito de ataque del 100% (ASR) a través de tres estrategias de activación diferentes en cuatro modelos. Además, investigamos si esta manipulación se generaliza a través de diferentes estímulos y dominios. Este trabajo destaca una amenaza significativa para la fiabilidad de los LLMs y subraya la necesidad de futuras defensas contra tales ataques. El código está disponible en https://github.com/qcznlp/uncertainty_attack.
English
Large Language Models (LLMs) are employed across various high-stakes domains,
where the reliability of their outputs is crucial. One commonly used method to
assess the reliability of LLMs' responses is uncertainty estimation, which
gauges the likelihood of their answers being correct. While many studies focus
on improving the accuracy of uncertainty estimations for LLMs, our research
investigates the fragility of uncertainty estimation and explores potential
attacks. We demonstrate that an attacker can embed a backdoor in LLMs, which,
when activated by a specific trigger in the input, manipulates the model's
uncertainty without affecting the final output. Specifically, the proposed
backdoor attack method can alter an LLM's output probability distribution,
causing the probability distribution to converge towards an attacker-predefined
distribution while ensuring that the top-1 prediction remains unchanged. Our
experimental results demonstrate that this attack effectively undermines the
model's self-evaluation reliability in multiple-choice questions. For instance,
we achieved a 100 attack success rate (ASR) across three different triggering
strategies in four models. Further, we investigate whether this manipulation
generalizes across different prompts and domains. This work highlights a
significant threat to the reliability of LLMs and underscores the need for
future defenses against such attacks. The code is available at
https://github.com/qcznlp/uncertainty_attack.Summary
AI-Generated Summary