I modelli linguistici all'avanguardia non sono robusti all'aritmetica avversaria, ovvero "Cosa devo dire per farti concordare che 2+2=5?"

Abstract

Introduciamo e studiamo il problema dell'aritmetica avversaria, che fornisce un banco di prova semplice ma impegnativo per l'allineamento dei modelli linguistici. Questo problema è composto da domande aritmetiche formulate in linguaggio naturale, con una stringa avversaria arbitraria inserita prima che la domanda sia completa. Anche nel contesto semplice di problemi di addizione a una cifra, è facile trovare prompt avversari che fanno comportare male tutti i modelli testati (inclusi PaLM2, GPT4, Claude2), e persino indirizzare i modelli verso una risposta errata specifica. Forniamo inoltre un semplice algoritmo per trovare attacchi di successo interrogando gli stessi modelli, che abbiamo denominato "prompt inversion rejection sampling" (PIRS). Infine, dimostriamo che i modelli possono essere parzialmente rafforzati contro questi attacchi tramite apprendimento per rinforzo e tramite cicli costituzionali agentici. Tuttavia, non siamo riusciti a rendere un modello linguistico completamente robusto contro gli attacchi di aritmetica avversaria.

English

We introduce and study the problem of adversarial arithmetic, which provides a simple yet challenging testbed for language model alignment. This problem is comprised of arithmetic questions posed in natural language, with an arbitrary adversarial string inserted before the question is complete. Even in the simple setting of 1-digit addition problems, it is easy to find adversarial prompts that make all tested models (including PaLM2, GPT4, Claude2) misbehave, and even to steer models to a particular wrong answer. We additionally provide a simple algorithm for finding successful attacks by querying those same models, which we name "prompt inversion rejection sampling" (PIRS). We finally show that models can be partially hardened against these attacks via reinforcement learning and via agentic constitutional loops. However, we were not able to make a language model fully robust against adversarial arithmetic attacks.

I modelli linguistici all'avanguardia non sono robusti all'aritmetica avversaria, ovvero "Cosa devo dire per farti concordare che 2+2=5?"

Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5?

Abstract

Support