Können LLMs einfache Regeln befolgen?

papers.abstract

Da Large Language Models (LLMs) zunehmend mit realen Verantwortungen eingesetzt werden, ist es wichtig, das Verhalten dieser Systeme auf zuverlässige Weise spezifizieren und einschränken zu können. Modellentwickler möchten möglicherweise explizite Regeln für das Modell festlegen, wie z. B. „generiere keine beleidigenden Inhalte“, doch diese könnten durch Jailbreaking-Techniken umgangen werden. Die Bewertung, wie gut LLMs die vom Entwickler vorgegebenen Regeln angesichts adversarieller Eingaben einhalten, erfordert typischerweise manuelle Überprüfung, was die Überwachung und Methodenentwicklung verlangsamt. Um dieses Problem zu lösen, schlagen wir Rule-following Language Evaluation Scenarios (RuLES) vor, ein programmatisches Framework zur Messung der Regelbefolgung in LLMs. RuLES besteht aus 15 einfachen Text-Szenarien, in denen das Modell angewiesen wird, eine Reihe von Regeln in natürlicher Sprache zu befolgen, während es mit dem menschlichen Benutzer interagiert. Jedes Szenario verfügt über ein prägnantes Bewertungsprogramm, um festzustellen, ob das Modell in einer Konversation gegen Regeln verstoßen hat. Durch manuelle Untersuchung des Modellverhaltens in unseren Szenarien identifizieren wir 6 Kategorien von Angriffsstrategien und sammeln zwei Testfall-Suiten: eine, die aus einzigartigen Konversationen aus manuellen Tests besteht, und eine, die systematisch Strategien aus den 6 Kategorien implementiert. Über verschiedene beliebte proprietäre und Open-Source-Modelle wie GPT-4 und Llama 2 hinweg stellen wir fest, dass alle Modelle anfällig für eine Vielzahl von adversariell handgefertigten Benutzereingaben sind, wobei GPT-4 das leistungsstärkste Modell ist. Zusätzlich bewerten wir Open-Source-Modelle unter gradientenbasierten Angriffen und finden erhebliche Schwachstellen. Wir schlagen RuLES als eine herausfordernde neue Umgebung für die Forschung vor, um sowohl manuelle als auch automatische Angriffe auf LLMs zu untersuchen und dagegen zu verteidigen.

English

As Large Language Models (LLMs) are deployed with increasing real-world responsibilities, it is important to be able to specify and constrain the behavior of these systems in a reliable manner. Model developers may wish to set explicit rules for the model, such as "do not generate abusive content", but these may be circumvented by jailbreaking techniques. Evaluating how well LLMs follow developer-provided rules in the face of adversarial inputs typically requires manual review, which slows down monitoring and methods development. To address this issue, we propose Rule-following Language Evaluation Scenarios (RuLES), a programmatic framework for measuring rule-following ability in LLMs. RuLES consists of 15 simple text scenarios in which the model is instructed to obey a set of rules in natural language while interacting with the human user. Each scenario has a concise evaluation program to determine whether the model has broken any rules in a conversation. Through manual exploration of model behavior in our scenarios, we identify 6 categories of attack strategies and collect two suites of test cases: one consisting of unique conversations from manual testing and one that systematically implements strategies from the 6 categories. Across various popular proprietary and open models such as GPT-4 and Llama 2, we find that all models are susceptible to a wide variety of adversarial hand-crafted user inputs, though GPT-4 is the best-performing model. Additionally, we evaluate open models under gradient-based attacks and find significant vulnerabilities. We propose RuLES as a challenging new setting for research into exploring and defending against both manual and automatic attacks on LLMs.

Können LLMs einfache Regeln befolgen?

Can LLMs Follow Simple Rules?

papers.abstract

Support