Jailbreaking da Debole a Forte sui Modelli Linguistici di Grande Scala

Abstract

Nonostante siano stati dedicati sforzi significativi all'allineamento dei grandi modelli linguistici (LLM), i rapporti di red-teaming suggeriscono che questi LLM attentamente allineati potrebbero comunque essere "jailbroken" tramite prompt avversari, tuning o decodifica. Esaminando la vulnerabilità al jailbreaking degli LLM allineati, osserviamo che le distribuzioni di decodifica dei modelli jailbroken e allineati differiscono solo nelle generazioni iniziali. Questa osservazione ci motiva a proporre l'attacco di jailbreaking weak-to-strong, in cui gli avversari possono utilizzare LLM più piccoli e non sicuri/allineati (ad esempio, 7B) per guidare il jailbreaking contro LLM allineati significativamente più grandi (ad esempio, 70B). Per eseguire il jailbreaking, è sufficiente decodificare ulteriormente due LLM più piccoli una sola volta, il che comporta un calcolo e una latenza minimi rispetto alla decodifica degli LLM più grandi. L'efficacia di questo attacco è dimostrata attraverso esperimenti condotti su cinque modelli di tre diverse organizzazioni. Il nostro studio rivela un modo precedentemente non notato ma efficiente di eseguire il jailbreaking, esponendo un urgente problema di sicurezza che deve essere considerato durante l'allineamento degli LLM. Come tentativo iniziale, proponiamo una strategia di difesa per proteggersi da tali attacchi, ma la creazione di difese più avanzate rimane una sfida. Il codice per replicare il metodo è disponibile all'indirizzo https://github.com/XuandongZhao/weak-to-strong.

English

Although significant efforts have been dedicated to aligning large language models (LLMs), red-teaming reports suggest that these carefully aligned LLMs could still be jailbroken through adversarial prompts, tuning, or decoding. Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that the decoding distributions of jailbroken and aligned models differ only in the initial generations. This observation motivates us to propose the weak-to-strong jailbreaking attack, where adversaries can utilize smaller unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally decode two smaller LLMs once, which involves minimal computation and latency compared to decoding the larger LLMs. The efficacy of this attack is demonstrated through experiments conducted on five models from three different organizations. Our study reveals a previously unnoticed yet efficient way of jailbreaking, exposing an urgent safety issue that needs to be considered when aligning LLMs. As an initial attempt, we propose a defense strategy to protect against such attacks, but creating more advanced defenses remains challenging. The code for replicating the method is available at https://github.com/XuandongZhao/weak-to-strong

Jailbreaking da Debole a Forte sui Modelli Linguistici di Grande Scala

Weak-to-Strong Jailbreaking on Large Language Models

Abstract

Support