Frontier-Sprachmodelle sind nicht robust gegenüber adversarischer Arithmetik, oder „Was muss ich sagen, damit Sie zustimmen, dass 2+2=5 ist?“

papers.abstract

Wir führen und untersuchen das Problem des adversarischen Rechnens ein, das eine einfache, aber herausfordernde Testumgebung für die Ausrichtung von Sprachmodellen bietet. Dieses Problem besteht aus arithmetischen Fragen, die in natürlicher Sprache gestellt werden, wobei eine beliebige adversarische Zeichenkette eingefügt wird, bevor die Frage vollständig ist. Selbst im einfachen Kontext von 1-stelligen Additionsaufgaben ist es leicht, adversarische Eingaben zu finden, die alle getesteten Modelle (einschließlich PaLM2, GPT4, Claude2) dazu bringen, sich falsch zu verhalten, und sogar, um Modelle zu einer bestimmten falschen Antwort zu lenken. Zusätzlich stellen wir einen einfachen Algorithmus vor, um erfolgreiche Angriffe durch Abfragen derselben Modelle zu finden, den wir „Prompt Inversion Rejection Sampling“ (PIRS) nennen. Schließlich zeigen wir, dass Modelle teilweise gegen diese Angriffe gehärtet werden können, sowohl durch Reinforcement Learning als auch durch agentische konstitutionelle Schleifen. Es gelang uns jedoch nicht, ein Sprachmodell vollständig gegen adversarische Rechenangriffe abzusichern.

English

We introduce and study the problem of adversarial arithmetic, which provides a simple yet challenging testbed for language model alignment. This problem is comprised of arithmetic questions posed in natural language, with an arbitrary adversarial string inserted before the question is complete. Even in the simple setting of 1-digit addition problems, it is easy to find adversarial prompts that make all tested models (including PaLM2, GPT4, Claude2) misbehave, and even to steer models to a particular wrong answer. We additionally provide a simple algorithm for finding successful attacks by querying those same models, which we name "prompt inversion rejection sampling" (PIRS). We finally show that models can be partially hardened against these attacks via reinforcement learning and via agentic constitutional loops. However, we were not able to make a language model fully robust against adversarial arithmetic attacks.

Frontier-Sprachmodelle sind nicht robust gegenüber adversarischer Arithmetik, oder „Was muss ich sagen, damit Sie zustimmen, dass 2+2=5 ist?“

Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5?

papers.abstract

Support