Атака по захвату ИИ с галлюцинациями: большие языковые модели и злонамеренные рекомендации кода
Hallucinating AI Hijacking Attack: Large Language Models and Malicious Code Recommenders
October 9, 2024
Авторы: David Noever, Forrest McKee
cs.AI
Аннотация
Исследование разрабатывает и оценивает адверсарный потенциал для внедрения скопированного кода или вымышленных рекомендаций искусственного интеллекта для вредоносного кода в популярные репозитории кода. В то время как фундаментальные большие языковые модели (LLM) от OpenAI, Google и Anthropic защищают от вредоносных действий и токсичных строк, предыдущие работы по математическим решениям, встраивающим вредоносные запросы, показывают, что ограничения могут различаться в зависимости от экспертного контекста. Эти уязвимости могут проявиться в смеси моделей экспертов, когда меняется контекст вопроса и могут предложить меньше вредоносных обучающих примеров для фильтрации токсичных комментариев или рекомендованных оскорбительных действий. Настоящая работа демонстрирует, что фундаментальные модели могут отказаться предложить разрушительные действия правильно при явном запросе, но, к сожалению, могут снизить бдительность при внезапном изменении контекста, например, при решении задачи по компьютерному программированию. Мы приводим эмпирические примеры с репозиториями, содержащими трояны, такими как GitHub, NPM, NuGet, и популярными сетями доставки контента (CDN), такими как jsDelivr, которые увеличивают поверхность атаки. В указаниях LLM для оказания помощи приводятся рекомендации примеров, предлагающие конечные точки интерфейса прикладного программирования (API), которые целеустремленный домен-захватчик может приобрести и настроить атакующую мобильную инфраструктуру, запускающуюся от наивно скопированного кода. Мы сравниваем эту атаку с предыдущими работами по сдвигу контекста и контрастируем поверхность атаки как новую версию атак "жизнь на земле" в литературе о вредоносных программах. В последнем случае фундаментальные языковые модели могут использовать иначе невинные запросы пользователей для рекомендации действий, нарушающих политику безопасности их владельцев, когда они задаются напрямую без соответствующего запроса на поддержку кодирования.
English
The research builds and evaluates the adversarial potential to introduce
copied code or hallucinated AI recommendations for malicious code in popular
code repositories. While foundational large language models (LLMs) from OpenAI,
Google, and Anthropic guard against both harmful behaviors and toxic strings,
previous work on math solutions that embed harmful prompts demonstrate that the
guardrails may differ between expert contexts. These loopholes would appear in
mixture of expert's models when the context of the question changes and may
offer fewer malicious training examples to filter toxic comments or recommended
offensive actions. The present work demonstrates that foundational models may
refuse to propose destructive actions correctly when prompted overtly but may
unfortunately drop their guard when presented with a sudden change of context,
like solving a computer programming challenge. We show empirical examples with
trojan-hosting repositories like GitHub, NPM, NuGet, and popular content
delivery networks (CDN) like jsDelivr which amplify the attack surface. In the
LLM's directives to be helpful, example recommendations propose application
programming interface (API) endpoints which a determined domain-squatter could
acquire and setup attack mobile infrastructure that triggers from the naively
copied code. We compare this attack to previous work on context-shifting and
contrast the attack surface as a novel version of "living off the land" attacks
in the malware literature. In the latter case, foundational language models can
hijack otherwise innocent user prompts to recommend actions that violate their
owners' safety policies when posed directly without the accompanying coding
support request.Summary
AI-Generated Summary