Передовые языковые модели не устойчивы к арифметическим атакам, или "Что мне нужно сказать, чтобы вы согласились, что 2+2=5?"
Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5?
November 8, 2023
Авторы: C. Daniel Freeman, Laura Culp, Aaron Parisi, Maxwell L Bileschi, Gamaleldin F Elsayed, Alex Rizkowsky, Isabelle Simpson, Alex Alemi, Azade Nova, Ben Adlam, Bernd Bohnet, Gaurav Mishra, Hanie Sedghi, Igor Mordatch, Izzeddin Gur, Jaehoon Lee, JD Co-Reyes, Jeffrey Pennington, Kelvin Xu, Kevin Swersky, Kshiteej Mahajan, Lechao Xiao, Rosanne Liu, Simon Kornblith, Noah Constant, Peter J. Liu, Roman Novak, Sharad Vikram, Yundi Qian, Noah Fiedel, Jascha Sohl-Dickstein
cs.AI
Аннотация
Мы представляем и исследуем задачу арифметики с противодействием, которая предлагает простую, но сложную тестовую площадку для согласования языковых моделей. Эта задача состоит из арифметических вопросов, сформулированных на естественном языке, с произвольной противодействующей строкой, вставленной до завершения вопроса. Даже в простом случае задач на сложение однозначных чисел легко найти противодействующие запросы, которые заставляют все протестированные модели (включая PaLM2, GPT4, Claude2) работать некорректно и даже направляют модели к конкретному неправильному ответу. Мы также предлагаем простой алгоритм для поиска успешных атак путем запросов к этим же моделям, который мы называем "отбор с отклонением инверсии запроса" (PIRS). Наконец, мы показываем, что модели могут быть частично защищены от таких атак с помощью обучения с подкреплением и через агентские конституционные циклы. Однако нам не удалось сделать языковую модель полностью устойчивой к атакам на арифметику с противодействием.
English
We introduce and study the problem of adversarial arithmetic, which provides
a simple yet challenging testbed for language model alignment. This problem is
comprised of arithmetic questions posed in natural language, with an arbitrary
adversarial string inserted before the question is complete. Even in the simple
setting of 1-digit addition problems, it is easy to find adversarial prompts
that make all tested models (including PaLM2, GPT4, Claude2) misbehave, and
even to steer models to a particular wrong answer. We additionally provide a
simple algorithm for finding successful attacks by querying those same models,
which we name "prompt inversion rejection sampling" (PIRS). We finally show
that models can be partially hardened against these attacks via reinforcement
learning and via agentic constitutional loops. However, we were not able to
make a language model fully robust against adversarial arithmetic attacks.