Modelos de Linguagem de Ponta não são Robustos a Aritmética Adversária, ou "O que eu preciso dizer para você concordar que 2+2=5?"

Resumo

Apresentamos e estudamos o problema da aritmética adversária, que oferece um ambiente simples, porém desafiador, para o alinhamento de modelos de linguagem. Esse problema consiste em questões aritméticas formuladas em linguagem natural, com uma string adversária arbitrária inserida antes que a questão seja concluída. Mesmo no cenário simples de problemas de adição com 1 dígito, é fácil encontrar prompts adversários que fazem com que todos os modelos testados (incluindo PaLM2, GPT4 e Claude2) se comportem de forma inadequada, e até mesmo direcionar os modelos para uma resposta errada específica. Além disso, fornecemos um algoritmo simples para encontrar ataques bem-sucedidos consultando esses mesmos modelos, que denominamos "amostragem por rejeição de inversão de prompt" (PIRS, na sigla em inglês). Por fim, demonstramos que os modelos podem ser parcialmente fortalecidos contra esses ataques por meio de aprendizado por reforço e de loops constitucionais agentivos. No entanto, não conseguimos tornar um modelo de linguagem completamente robusto contra ataques de aritmética adversária.

English

We introduce and study the problem of adversarial arithmetic, which provides a simple yet challenging testbed for language model alignment. This problem is comprised of arithmetic questions posed in natural language, with an arbitrary adversarial string inserted before the question is complete. Even in the simple setting of 1-digit addition problems, it is easy to find adversarial prompts that make all tested models (including PaLM2, GPT4, Claude2) misbehave, and even to steer models to a particular wrong answer. We additionally provide a simple algorithm for finding successful attacks by querying those same models, which we name "prompt inversion rejection sampling" (PIRS). We finally show that models can be partially hardened against these attacks via reinforcement learning and via agentic constitutional loops. However, we were not able to make a language model fully robust against adversarial arithmetic attacks.

Modelos de Linguagem de Ponta não são Robustos a Aritmética Adversária, ou "O que eu preciso dizer para você concordar que 2+2=5?"

Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5?

Resumo

Support