Ataque de Sequestro de IA Alucinante: Modelos de Linguagem Grandes e Recomendadores de Código Malicioso

Resumo

A pesquisa constrói e avalia o potencial adversarial de introduzir código copiado ou recomendações de IA alucinadas para código malicioso em repositórios de código populares. Enquanto modelos de linguagem grandes (LLMs) fundamentais da OpenAI, Google e Anthropic protegem contra comportamentos prejudiciais e cadeias tóxicas, trabalhos anteriores em soluções matemáticas que incorporam prompts prejudiciais demonstram que as proteções podem variar entre contextos de especialistas. Essas brechas podem surgir em modelos de especialistas quando o contexto da pergunta muda e podem oferecer menos exemplos de treinamento maliciosos para filtrar comentários tóxicos ou ações ofensivas recomendadas. O presente trabalho demonstra que modelos fundamentais podem se recusar a propor ações destrutivas corretamente quando solicitados explicitamente, mas infelizmente podem baixar a guarda quando apresentados a uma mudança repentina de contexto, como resolver um desafio de programação de computadores. Mostramos exemplos empíricos com repositórios hospedeiros de cavalos de Troia como GitHub, NPM, NuGet e redes de entrega de conteúdo populares (CDN) como jsDelivr, que ampliam a superfície de ataque. Nas diretrizes do LLM para ser útil, recomendações de exemplo propõem pontos de extremidade de interface de programação de aplicativos (API) que um especulador de domínio determinado poderia adquirir e configurar uma infraestrutura móvel de ataque que é acionada a partir do código ingenuamente copiado. Comparamos esse ataque a trabalhos anteriores sobre mudança de contexto e contrastamos a superfície de ataque como uma versão inovadora de ataques "living off the land" na literatura de malware. Neste último caso, os modelos de linguagem fundamentais podem se apropriar de prompts de usuário de outra forma inocentes para recomendar ações que violam as políticas de segurança de seus proprietários quando apresentados diretamente sem a solicitação de suporte de codificação acompanhante.

English

The research builds and evaluates the adversarial potential to introduce copied code or hallucinated AI recommendations for malicious code in popular code repositories. While foundational large language models (LLMs) from OpenAI, Google, and Anthropic guard against both harmful behaviors and toxic strings, previous work on math solutions that embed harmful prompts demonstrate that the guardrails may differ between expert contexts. These loopholes would appear in mixture of expert's models when the context of the question changes and may offer fewer malicious training examples to filter toxic comments or recommended offensive actions. The present work demonstrates that foundational models may refuse to propose destructive actions correctly when prompted overtly but may unfortunately drop their guard when presented with a sudden change of context, like solving a computer programming challenge. We show empirical examples with trojan-hosting repositories like GitHub, NPM, NuGet, and popular content delivery networks (CDN) like jsDelivr which amplify the attack surface. In the LLM's directives to be helpful, example recommendations propose application programming interface (API) endpoints which a determined domain-squatter could acquire and setup attack mobile infrastructure that triggers from the naively copied code. We compare this attack to previous work on context-shifting and contrast the attack surface as a novel version of "living off the land" attacks in the malware literature. In the latter case, foundational language models can hijack otherwise innocent user prompts to recommend actions that violate their owners' safety policies when posed directly without the accompanying coding support request.

Ataque de Sequestro de IA Alucinante: Modelos de Linguagem Grandes e Recomendadores de Código Malicioso

Hallucinating AI Hijacking Attack: Large Language Models and Malicious Code Recommenders

Resumo

Support