Halluzinierender KI-Hijacking-Angriff: Große Sprachmodelle und bösartige Code-Empfehlungssysteme

papers.abstract

Die Forschung entwickelt und bewertet das adversäre Potenzial, um kopierten Code oder halluzinierte KI-Empfehlungen für bösartigen Code in populären Code-Repositories einzuführen. Während grundlegende große Sprachmodelle (LLMs) von OpenAI, Google und Anthropic sowohl gegen schädliches Verhalten als auch gegen toxische Zeichen schützen, zeigen frühere Arbeiten zu mathematischen Lösungen, die schädliche Aufforderungen einbetten, dass die Sicherheitsvorkehrungen je nach Expertenkontext variieren können. Diese Schlupflöcher würden in einer Mischung von Modellen von Experten auftreten, wenn sich der Kontext der Frage ändert und möglicherweise weniger bösartige Trainingsbeispiele bieten, um toxische Kommentare zu filtern oder empfohlene offensive Aktionen zu entfernen. Die vorliegende Arbeit zeigt, dass grundlegende Modelle möglicherweise zerstörerische Aktionen korrekt ablehnen, wenn sie offen dazu aufgefordert werden, aber leider ihre Wachsamkeit fallen lassen, wenn sie mit einem plötzlichen Kontextwechsel konfrontiert werden, wie bei der Lösung einer Computerprogrammierherausforderung. Wir zeigen empirische Beispiele mit Trojaner-Hosting-Repositories wie GitHub, NPM, NuGet und beliebten Content-Delivery-Netzwerken (CDN) wie jsDelivr, die die Angriffsfläche vergrößern. In den Anweisungen der LLMs, um hilfreich zu sein, schlagen Beispiel-Empfehlungen Anwendungsprogrammierschnittstellen (API) Endpunkte vor, die ein entschlossener Domain-Squatter erwerben und eine Angriffsmobilinfrastruktur einrichten könnte, die durch den naiv kopierten Code ausgelöst wird. Wir vergleichen diesen Angriff mit früheren Arbeiten zum Kontextwechsel und stellen die Angriffsfläche als eine neuartige Version von "Living off the Land"-Angriffen in der Malware-Literatur dar. In letzterem Fall können grundlegende Sprachmodelle ansonsten unschuldige Benutzer-Aufforderungen hijacken, um Aktionen zu empfehlen, die gegen die Sicherheitsrichtlinien ihrer Besitzer verstoßen, wenn sie direkt ohne die entsprechende Codierungsunterstützungsanfrage gestellt werden.

English

The research builds and evaluates the adversarial potential to introduce copied code or hallucinated AI recommendations for malicious code in popular code repositories. While foundational large language models (LLMs) from OpenAI, Google, and Anthropic guard against both harmful behaviors and toxic strings, previous work on math solutions that embed harmful prompts demonstrate that the guardrails may differ between expert contexts. These loopholes would appear in mixture of expert's models when the context of the question changes and may offer fewer malicious training examples to filter toxic comments or recommended offensive actions. The present work demonstrates that foundational models may refuse to propose destructive actions correctly when prompted overtly but may unfortunately drop their guard when presented with a sudden change of context, like solving a computer programming challenge. We show empirical examples with trojan-hosting repositories like GitHub, NPM, NuGet, and popular content delivery networks (CDN) like jsDelivr which amplify the attack surface. In the LLM's directives to be helpful, example recommendations propose application programming interface (API) endpoints which a determined domain-squatter could acquire and setup attack mobile infrastructure that triggers from the naively copied code. We compare this attack to previous work on context-shifting and contrast the attack surface as a novel version of "living off the land" attacks in the malware literature. In the latter case, foundational language models can hijack otherwise innocent user prompts to recommend actions that violate their owners' safety policies when posed directly without the accompanying coding support request.

Halluzinierender KI-Hijacking-Angriff: Große Sprachmodelle und bösartige Code-Empfehlungssysteme

Hallucinating AI Hijacking Attack: Large Language Models and Malicious Code Recommenders

papers.abstract

Support