Les modèles de langage de pointe ne sont pas robustes face à l'arithmétique adversarial, ou "Que dois-je dire pour que vous acceptiez que 2+2=5 ?"

papers.abstract

Nous introduisons et étudions le problème de l'arithmétique adversarial, qui offre un cadre simple mais stimulant pour tester l'alignement des modèles de langage. Ce problème consiste en des questions arithmétiques formulées en langage naturel, avec une chaîne de caractères adversarial arbitraire insérée avant que la question ne soit complète. Même dans le cadre simple des additions à un chiffre, il est facile de trouver des prompts adversariaux qui font dysfonctionner tous les modèles testés (y compris PaLM2, GPT4, Claude2), et même de diriger les modèles vers une mauvaise réponse spécifique. Nous proposons également un algorithme simple pour trouver des attaques réussies en interrogeant ces mêmes modèles, que nous nommons "échantillonnage par rejet d'inversion de prompt" (PIRS). Nous montrons enfin que les modèles peuvent être partiellement renforcés contre ces attaques via l'apprentissage par renforcement et via des boucles constitutionnelles agentiques. Cependant, nous n'avons pas réussi à rendre un modèle de langage entièrement robuste contre les attaques d'arithmétique adversarial.

English

We introduce and study the problem of adversarial arithmetic, which provides a simple yet challenging testbed for language model alignment. This problem is comprised of arithmetic questions posed in natural language, with an arbitrary adversarial string inserted before the question is complete. Even in the simple setting of 1-digit addition problems, it is easy to find adversarial prompts that make all tested models (including PaLM2, GPT4, Claude2) misbehave, and even to steer models to a particular wrong answer. We additionally provide a simple algorithm for finding successful attacks by querying those same models, which we name "prompt inversion rejection sampling" (PIRS). We finally show that models can be partially hardened against these attacks via reinforcement learning and via agentic constitutional loops. However, we were not able to make a language model fully robust against adversarial arithmetic attacks.

Les modèles de langage de pointe ne sont pas robustes face à l'arithmétique adversarial, ou "Que dois-je dire pour que vous acceptiez que 2+2=5 ?"

Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5?

papers.abstract

Support