Attacco di dirottamento dell'IA per l'allucinazione: Grandi modelli linguistici e raccomandazioni di codice maligno

Abstract

La ricerca costruisce e valuta il potenziale avversario per introdurre codice copiato o raccomandazioni di intelligenza artificiale allucinate per codice dannoso in popolari repository di codice. Mentre i modelli linguistici di larga scala (LLM) fondamentali di OpenAI, Google e Anthropic proteggono sia dai comportamenti dannosi che dalle stringhe tossiche, lavori precedenti su soluzioni matematiche che incorporano prompt dannosi dimostrano che le protezioni potrebbero variare tra contesti di esperti. Queste falle potrebbero manifestarsi in una combinazione di modelli di esperti quando il contesto della domanda cambia e potrebbero offrire meno esempi di addestramento dannosi per filtrare commenti tossici o azioni offensive raccomandate. Il presente lavoro dimostra che i modelli fondamentali potrebbero rifiutarsi di proporre correttamente azioni distruttive quando sollecitati apertamente, ma potrebbero purtroppo abbassare la guardia di fronte a un improvviso cambio di contesto, come risolvere una sfida di programmazione informatica. Mostriamo esempi empirici con repository che ospitano trojan come GitHub, NPM, NuGet e popolari reti di distribuzione di contenuti (CDN) come jsDelivr che amplificano la superficie di attacco. Nelle direttive dei LLM per essere utili, le raccomandazioni di esempio propongono endpoint delle interfacce di programmazione delle applicazioni (API) che un cybersquatter determinato potrebbe acquisire e configurare un'infrastruttura mobile di attacco che si attiva dal codice copiato in modo ingenuo. Confrontiamo questo attacco con lavori precedenti sullo spostamento del contesto e mettiamo in contrasto la superficie di attacco come una nuova versione degli attacchi "living off the land" nella letteratura sul malware. In quest'ultimo caso, i modelli linguistici fondamentali possono dirottare prompt altrimenti innocenti degli utenti per raccomandare azioni che violano le politiche di sicurezza dei loro proprietari quando poste direttamente senza la richiesta di supporto alla codifica.

English

The research builds and evaluates the adversarial potential to introduce copied code or hallucinated AI recommendations for malicious code in popular code repositories. While foundational large language models (LLMs) from OpenAI, Google, and Anthropic guard against both harmful behaviors and toxic strings, previous work on math solutions that embed harmful prompts demonstrate that the guardrails may differ between expert contexts. These loopholes would appear in mixture of expert's models when the context of the question changes and may offer fewer malicious training examples to filter toxic comments or recommended offensive actions. The present work demonstrates that foundational models may refuse to propose destructive actions correctly when prompted overtly but may unfortunately drop their guard when presented with a sudden change of context, like solving a computer programming challenge. We show empirical examples with trojan-hosting repositories like GitHub, NPM, NuGet, and popular content delivery networks (CDN) like jsDelivr which amplify the attack surface. In the LLM's directives to be helpful, example recommendations propose application programming interface (API) endpoints which a determined domain-squatter could acquire and setup attack mobile infrastructure that triggers from the naively copied code. We compare this attack to previous work on context-shifting and contrast the attack surface as a novel version of "living off the land" attacks in the malware literature. In the latter case, foundational language models can hijack otherwise innocent user prompts to recommend actions that violate their owners' safety policies when posed directly without the accompanying coding support request.

Attacco di dirottamento dell'IA per l'allucinazione: Grandi modelli linguistici e raccomandazioni di codice maligno

Hallucinating AI Hijacking Attack: Large Language Models and Malicious Code Recommenders

Abstract

Support