Hallucinerende AI-hijackingaanval: Grote taalmodellen en kwaadaardige coderecommenders

Samenvatting

Het onderzoek bouwt op en evalueert het tegenwerkende potentieel om gekopieerde code in te voeren of gehallucineerde AI-aanbevelingen voor kwaadaardige code in populaire code-repositories. Terwijl fundamentele grote taalmodellen (LLM's) van OpenAI, Google en Anthropic zich beschermen tegen zowel schadelijk gedrag als giftige strings, toont eerder werk aan dat wiskundige oplossingen die schadelijke aanwijzingen insluiten, aantonen dat de veiligheidsmaatregelen kunnen verschillen tussen expertcontexten. Deze achterdeurtjes zouden verschijnen in een mix van modellen van experts wanneer de context van de vraag verandert en minder kwaadaardige trainingsvoorbeelden zou kunnen bieden om giftige opmerkingen te filteren of aanbevolen aanstootgevende acties. Het huidige werk toont aan dat fundamentele modellen mogelijk weigeren om destructieve acties correct voor te stellen wanneer hier expliciet om wordt gevraagd, maar helaas hun waakzaamheid laten varen wanneer ze worden geconfronteerd met een plotselinge verandering van context, zoals het oplossen van een programmeeruitdaging. We tonen empirische voorbeelden met trojan-hosting repositories zoals GitHub, NPM, NuGet, en populaire content delivery-netwerken (CDN's) zoals jsDelivr die het aanvalsoppervlak vergroten. In de richtlijnen van de LLM om behulpzaam te zijn, stellen voorbeeldaanbevelingen applicatie-programmeerinterface (API) eindpunten voor die een vastberaden domeinkaper zou kunnen verkrijgen en een aanvalsmobiele infrastructuur opzetten die wordt geactiveerd vanuit de naïef gekopieerde code. We vergelijken deze aanval met eerder werk over contextverschuiving en contrasteren het aanvalsoppervlak als een nieuwe versie van "living off the land" aanvallen in de malware-literatuur. In het laatste geval kunnen fundamentele taalmodellen anderszins onschuldige gebruikersaanwijzingen kapen om acties aan te bevelen die in strijd zijn met de veiligheidsbeleidslijnen van hun eigenaars wanneer deze direct worden gesteld zonder het bijbehorende verzoek om coderingsondersteuning.

English

The research builds and evaluates the adversarial potential to introduce copied code or hallucinated AI recommendations for malicious code in popular code repositories. While foundational large language models (LLMs) from OpenAI, Google, and Anthropic guard against both harmful behaviors and toxic strings, previous work on math solutions that embed harmful prompts demonstrate that the guardrails may differ between expert contexts. These loopholes would appear in mixture of expert's models when the context of the question changes and may offer fewer malicious training examples to filter toxic comments or recommended offensive actions. The present work demonstrates that foundational models may refuse to propose destructive actions correctly when prompted overtly but may unfortunately drop their guard when presented with a sudden change of context, like solving a computer programming challenge. We show empirical examples with trojan-hosting repositories like GitHub, NPM, NuGet, and popular content delivery networks (CDN) like jsDelivr which amplify the attack surface. In the LLM's directives to be helpful, example recommendations propose application programming interface (API) endpoints which a determined domain-squatter could acquire and setup attack mobile infrastructure that triggers from the naively copied code. We compare this attack to previous work on context-shifting and contrast the attack surface as a novel version of "living off the land" attacks in the malware literature. In the latter case, foundational language models can hijack otherwise innocent user prompts to recommend actions that violate their owners' safety policies when posed directly without the accompanying coding support request.

Hallucinerende AI-hijackingaanval: Grote taalmodellen en kwaadaardige coderecommenders

Hallucinating AI Hijacking Attack: Large Language Models and Malicious Code Recommenders

Samenvatting

Support