Costringere i LLM a fare e rivelare (quasi) qualsiasi cosa

Abstract

È stato recentemente dimostrato che gli attacchi avversari sui grandi modelli linguistici (LLM) possono "sbloccare" il modello, portandolo a produrre dichiarazioni dannose. In questo lavoro, sosteniamo che lo spettro degli attacchi avversari sugli LLM è molto più ampio del semplice sblocco. Forniamo una panoramica generale delle possibili superfici di attacco e degli obiettivi degli attacchi. Basandoci su una serie di esempi concreti, discutiamo, categorizziamo e sistematizziamo gli attacchi che inducono comportamenti non intenzionali vari, come la disinformazione, il controllo del modello, il denial-of-service o l'estrazione di dati. Analizziamo questi attacchi in esperimenti controllati e scopriamo che molti di essi derivano dalla pratica di pre-addestrare gli LLM con capacità di codifica, nonché dalla persistenza di strani token "glitch" nei vocabolari comuni degli LLM che dovrebbero essere rimossi per motivi di sicurezza.

English

It has recently been shown that adversarial attacks on large language models (LLMs) can "jailbreak" the model into making harmful statements. In this work, we argue that the spectrum of adversarial attacks on LLMs is much larger than merely jailbreaking. We provide a broad overview of possible attack surfaces and attack goals. Based on a series of concrete examples, we discuss, categorize and systematize attacks that coerce varied unintended behaviors, such as misdirection, model control, denial-of-service, or data extraction. We analyze these attacks in controlled experiments, and find that many of them stem from the practice of pre-training LLMs with coding capabilities, as well as the continued existence of strange "glitch" tokens in common LLM vocabularies that should be removed for security reasons.

Costringere i LLM a fare e rivelare (quasi) qualsiasi cosa

Coercing LLMs to do and reveal (almost) anything

Abstract

Support