Frontier-taalmodellen zijn niet bestand tegen adversarische rekenkunde, of "Wat moet ik zeggen zodat je het ermee eens bent dat 2+2=5?"

Samenvatting

We introduceren en bestuderen het probleem van adversarische rekenkunde, dat een eenvoudig maar uitdagend testbed biedt voor de afstemming van taalmodel. Dit probleem bestaat uit rekenkundige vragen gesteld in natuurlijke taal, met een willekeurige adversarische string ingevoegd voordat de vraag compleet is. Zelfs in de eenvoudige setting van 1-cijferige optelproblemen is het gemakkelijk om adversarische prompts te vinden die alle geteste modellen (inclusief PaLM2, GPT4, Claude2) doen mislukken, en zelfs om modellen naar een specifiek fout antwoord te sturen. We bieden daarnaast een eenvoudig algoritme voor het vinden van succesvolle aanvallen door dezezelfde modellen te bevragen, dat we "prompt inversion rejection sampling" (PIRS) noemen. We tonen ten slotte aan dat modellen gedeeltelijk kunnen worden verhard tegen deze aanvallen via reinforcement learning en via agentische constitutionele lussen. We waren echter niet in staat om een taalmodel volledig robuust te maken tegen adversarische rekenkundige aanvallen.

English

We introduce and study the problem of adversarial arithmetic, which provides a simple yet challenging testbed for language model alignment. This problem is comprised of arithmetic questions posed in natural language, with an arbitrary adversarial string inserted before the question is complete. Even in the simple setting of 1-digit addition problems, it is easy to find adversarial prompts that make all tested models (including PaLM2, GPT4, Claude2) misbehave, and even to steer models to a particular wrong answer. We additionally provide a simple algorithm for finding successful attacks by querying those same models, which we name "prompt inversion rejection sampling" (PIRS). We finally show that models can be partially hardened against these attacks via reinforcement learning and via agentic constitutional loops. However, we were not able to make a language model fully robust against adversarial arithmetic attacks.

Frontier-taalmodellen zijn niet bestand tegen adversarische rekenkunde, of "Wat moet ik zeggen zodat je het ermee eens bent dat 2+2=5?"

Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5?

Samenvatting

Support