Können LLMs einfache Regeln befolgen?
Can LLMs Follow Simple Rules?
November 6, 2023
Autoren: Norman Mu, Sarah Chen, Zifan Wang, Sizhe Chen, David Karamardian, Lulwa Aljeraisy, Dan Hendrycks, David Wagner
cs.AI
Zusammenfassung
Da Large Language Models (LLMs) zunehmend mit realen Verantwortungen eingesetzt werden, ist es wichtig, das Verhalten dieser Systeme auf zuverlässige Weise spezifizieren und einschränken zu können. Modellentwickler möchten möglicherweise explizite Regeln für das Modell festlegen, wie z. B. „generiere keine beleidigenden Inhalte“, doch diese könnten durch Jailbreaking-Techniken umgangen werden. Die Bewertung, wie gut LLMs die vom Entwickler vorgegebenen Regeln angesichts adversarieller Eingaben einhalten, erfordert typischerweise manuelle Überprüfung, was die Überwachung und Methodenentwicklung verlangsamt. Um dieses Problem zu lösen, schlagen wir Rule-following Language Evaluation Scenarios (RuLES) vor, ein programmatisches Framework zur Messung der Regelbefolgung in LLMs. RuLES besteht aus 15 einfachen Text-Szenarien, in denen das Modell angewiesen wird, eine Reihe von Regeln in natürlicher Sprache zu befolgen, während es mit dem menschlichen Benutzer interagiert. Jedes Szenario verfügt über ein prägnantes Bewertungsprogramm, um festzustellen, ob das Modell in einer Konversation gegen Regeln verstoßen hat. Durch manuelle Untersuchung des Modellverhaltens in unseren Szenarien identifizieren wir 6 Kategorien von Angriffsstrategien und sammeln zwei Testfall-Suiten: eine, die aus einzigartigen Konversationen aus manuellen Tests besteht, und eine, die systematisch Strategien aus den 6 Kategorien implementiert. Über verschiedene beliebte proprietäre und Open-Source-Modelle wie GPT-4 und Llama 2 hinweg stellen wir fest, dass alle Modelle anfällig für eine Vielzahl von adversariell handgefertigten Benutzereingaben sind, wobei GPT-4 das leistungsstärkste Modell ist. Zusätzlich bewerten wir Open-Source-Modelle unter gradientenbasierten Angriffen und finden erhebliche Schwachstellen. Wir schlagen RuLES als eine herausfordernde neue Umgebung für die Forschung vor, um sowohl manuelle als auch automatische Angriffe auf LLMs zu untersuchen und dagegen zu verteidigen.
English
As Large Language Models (LLMs) are deployed with increasing real-world
responsibilities, it is important to be able to specify and constrain the
behavior of these systems in a reliable manner. Model developers may wish to
set explicit rules for the model, such as "do not generate abusive content",
but these may be circumvented by jailbreaking techniques. Evaluating how well
LLMs follow developer-provided rules in the face of adversarial inputs
typically requires manual review, which slows down monitoring and methods
development. To address this issue, we propose Rule-following Language
Evaluation Scenarios (RuLES), a programmatic framework for measuring
rule-following ability in LLMs. RuLES consists of 15 simple text scenarios in
which the model is instructed to obey a set of rules in natural language while
interacting with the human user. Each scenario has a concise evaluation program
to determine whether the model has broken any rules in a conversation. Through
manual exploration of model behavior in our scenarios, we identify 6 categories
of attack strategies and collect two suites of test cases: one consisting of
unique conversations from manual testing and one that systematically implements
strategies from the 6 categories. Across various popular proprietary and open
models such as GPT-4 and Llama 2, we find that all models are susceptible to a
wide variety of adversarial hand-crafted user inputs, though GPT-4 is the
best-performing model. Additionally, we evaluate open models under
gradient-based attacks and find significant vulnerabilities. We propose RuLES
as a challenging new setting for research into exploring and defending against
both manual and automatic attacks on LLMs.