Attaque de détournement par hallucination de l'IA : grands modèles de langage et recommandeurs de code malveillants

papers.abstract

La recherche construit et évalue le potentiel adversarial d'introduire du code copié ou des recommandations d'IA hallucinées pour du code malveillant dans des dépôts de code populaires. Alors que les modèles de langage larges (LLM) fondamentaux d'OpenAI, Google et Anthropic se protègent à la fois contre les comportements nuisibles et les chaînes toxiques, des travaux antérieurs sur des solutions mathématiques intégrant des instructions nocives montrent que les garde-fous peuvent différer selon les contextes d'experts. Ces failles apparaîtraient dans un mélange de modèles d'experts lorsque le contexte de la question change et pourraient offrir moins d'exemples d'entraînement malveillants pour filtrer les commentaires toxiques ou les actions offensantes recommandées. Ce travail actuel démontre que les modèles fondamentaux peuvent refuser de proposer correctement des actions destructrices lorsqu'ils sont sollicités de manière explicite, mais peuvent malheureusement baisser leur garde lorsqu'ils sont confrontés à un changement soudain de contexte, comme résoudre un défi de programmation informatique. Nous montrons des exemples empiriques avec des dépôts hébergeant des chevaux de Troie comme GitHub, NPM, NuGet, et des réseaux de diffusion de contenu populaires (CDN) comme jsDelivr qui amplifient la surface d'attaque. Dans les directives des LLM pour être utiles, des recommandations d'exemple proposent des points de terminaison d'interface de programmation d'application (API) qu'un squatteur de domaine déterminé pourrait acquérir et configurer une infrastructure mobile d'attaque déclenchée à partir du code naïvement copié. Nous comparons cette attaque à des travaux antérieurs sur le changement de contexte et contrastons la surface d'attaque comme une nouvelle version des attaques "living off the land" dans la littérature sur les logiciels malveillants. Dans ce dernier cas, les modèles de langage fondamentaux peuvent détourner des instructions d'utilisateur par ailleurs innocentes pour recommander des actions qui violent les politiques de sécurité de leurs propriétaires lorsqu'elles sont posées directement sans la demande de support de codage accompagnante.

English

The research builds and evaluates the adversarial potential to introduce copied code or hallucinated AI recommendations for malicious code in popular code repositories. While foundational large language models (LLMs) from OpenAI, Google, and Anthropic guard against both harmful behaviors and toxic strings, previous work on math solutions that embed harmful prompts demonstrate that the guardrails may differ between expert contexts. These loopholes would appear in mixture of expert's models when the context of the question changes and may offer fewer malicious training examples to filter toxic comments or recommended offensive actions. The present work demonstrates that foundational models may refuse to propose destructive actions correctly when prompted overtly but may unfortunately drop their guard when presented with a sudden change of context, like solving a computer programming challenge. We show empirical examples with trojan-hosting repositories like GitHub, NPM, NuGet, and popular content delivery networks (CDN) like jsDelivr which amplify the attack surface. In the LLM's directives to be helpful, example recommendations propose application programming interface (API) endpoints which a determined domain-squatter could acquire and setup attack mobile infrastructure that triggers from the naively copied code. We compare this attack to previous work on context-shifting and contrast the attack surface as a novel version of "living off the land" attacks in the malware literature. In the latter case, foundational language models can hijack otherwise innocent user prompts to recommend actions that violate their owners' safety policies when posed directly without the accompanying coding support request.

Attaque de détournement par hallucination de l'IA : grands modèles de langage et recommandeurs de code malveillants

Hallucinating AI Hijacking Attack: Large Language Models and Malicious Code Recommenders

papers.abstract

Support