Неопределенность хрупкая: управление неопределенностью в больших языковых моделях.
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models
July 15, 2024
Авторы: Qingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang
cs.AI
Аннотация
Большие языковые модели (LLM) применяются в различных областях с высокими ставками, где надежность их результатов критически важна. Одним из широко используемых методов оценки надежности ответов LLM является оценка неопределенности, которая измеряет вероятность правильности их ответов. В то время как многие исследования сосредотачиваются на улучшении точности оценок неопределенности для LLM, наше исследование исследует хрупкость оценки неопределенности и исследует потенциальные атаки. Мы демонстрируем, что злоумышленник может внедрить тыловой портал в LLM, который, активируемый определенным триггером во входных данных, манипулирует неопределенностью модели, не влияя на конечный результат. Конкретно, предложенный метод атаки с тыловым порталом может изменить распределение вероятностей вывода LLM, заставляя распределение вероятностей сходиться к заранее определенному злоумышленником распределению, обеспечивая при этом неизменность лучшего предсказания. Наши экспериментальные результаты показывают, что эта атака эффективно подрывает надежность самооценки модели в многовариантных вопросах. Например, мы достигли 100% успешности атаки (ASR) при использовании трех различных стратегий триггеров в четырех моделях. Кроме того, мы исследуем, обобщается ли эта манипуляция на различные подсказки и области. Эта работа подчеркивает значительную угрозу для надежности LLM и подчеркивает необходимость будущих защитных мер против таких атак. Код доступен по ссылке https://github.com/qcznlp/uncertainty_attack.
English
Large Language Models (LLMs) are employed across various high-stakes domains,
where the reliability of their outputs is crucial. One commonly used method to
assess the reliability of LLMs' responses is uncertainty estimation, which
gauges the likelihood of their answers being correct. While many studies focus
on improving the accuracy of uncertainty estimations for LLMs, our research
investigates the fragility of uncertainty estimation and explores potential
attacks. We demonstrate that an attacker can embed a backdoor in LLMs, which,
when activated by a specific trigger in the input, manipulates the model's
uncertainty without affecting the final output. Specifically, the proposed
backdoor attack method can alter an LLM's output probability distribution,
causing the probability distribution to converge towards an attacker-predefined
distribution while ensuring that the top-1 prediction remains unchanged. Our
experimental results demonstrate that this attack effectively undermines the
model's self-evaluation reliability in multiple-choice questions. For instance,
we achieved a 100 attack success rate (ASR) across three different triggering
strategies in four models. Further, we investigate whether this manipulation
generalizes across different prompts and domains. This work highlights a
significant threat to the reliability of LLMs and underscores the need for
future defenses against such attacks. The code is available at
https://github.com/qcznlp/uncertainty_attack.Summary
AI-Generated Summary