Jailbreaking da Debole a Forte sui Modelli Linguistici di Grande Scala
Weak-to-Strong Jailbreaking on Large Language Models
January 30, 2024
Autori: Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang
cs.AI
Abstract
Nonostante siano stati dedicati sforzi significativi all'allineamento dei grandi modelli linguistici (LLM), i rapporti di red-teaming suggeriscono che questi LLM attentamente allineati potrebbero comunque essere "jailbroken" tramite prompt avversari, tuning o decodifica. Esaminando la vulnerabilità al jailbreaking degli LLM allineati, osserviamo che le distribuzioni di decodifica dei modelli jailbroken e allineati differiscono solo nelle generazioni iniziali. Questa osservazione ci motiva a proporre l'attacco di jailbreaking weak-to-strong, in cui gli avversari possono utilizzare LLM più piccoli e non sicuri/allineati (ad esempio, 7B) per guidare il jailbreaking contro LLM allineati significativamente più grandi (ad esempio, 70B). Per eseguire il jailbreaking, è sufficiente decodificare ulteriormente due LLM più piccoli una sola volta, il che comporta un calcolo e una latenza minimi rispetto alla decodifica degli LLM più grandi. L'efficacia di questo attacco è dimostrata attraverso esperimenti condotti su cinque modelli di tre diverse organizzazioni. Il nostro studio rivela un modo precedentemente non notato ma efficiente di eseguire il jailbreaking, esponendo un urgente problema di sicurezza che deve essere considerato durante l'allineamento degli LLM. Come tentativo iniziale, proponiamo una strategia di difesa per proteggersi da tali attacchi, ma la creazione di difese più avanzate rimane una sfida. Il codice per replicare il metodo è disponibile all'indirizzo https://github.com/XuandongZhao/weak-to-strong.
English
Although significant efforts have been dedicated to aligning large language
models (LLMs), red-teaming reports suggest that these carefully aligned LLMs
could still be jailbroken through adversarial prompts, tuning, or decoding.
Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that
the decoding distributions of jailbroken and aligned models differ only in the
initial generations. This observation motivates us to propose the
weak-to-strong jailbreaking attack, where adversaries can utilize smaller
unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly
larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally
decode two smaller LLMs once, which involves minimal computation and latency
compared to decoding the larger LLMs. The efficacy of this attack is
demonstrated through experiments conducted on five models from three different
organizations. Our study reveals a previously unnoticed yet efficient way of
jailbreaking, exposing an urgent safety issue that needs to be considered when
aligning LLMs. As an initial attempt, we propose a defense strategy to protect
against such attacks, but creating more advanced defenses remains challenging.
The code for replicating the method is available at
https://github.com/XuandongZhao/weak-to-strong