ChatPaper.aiChatPaper

Los modelos de lenguaje de vanguardia no son robustos frente a aritmética adversaria, o "¿Qué necesito decir para que aceptes que 2+2=5?"

Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5?

November 8, 2023
Autores: C. Daniel Freeman, Laura Culp, Aaron Parisi, Maxwell L Bileschi, Gamaleldin F Elsayed, Alex Rizkowsky, Isabelle Simpson, Alex Alemi, Azade Nova, Ben Adlam, Bernd Bohnet, Gaurav Mishra, Hanie Sedghi, Igor Mordatch, Izzeddin Gur, Jaehoon Lee, JD Co-Reyes, Jeffrey Pennington, Kelvin Xu, Kevin Swersky, Kshiteej Mahajan, Lechao Xiao, Rosanne Liu, Simon Kornblith, Noah Constant, Peter J. Liu, Roman Novak, Sharad Vikram, Yundi Qian, Noah Fiedel, Jascha Sohl-Dickstein
cs.AI

Resumen

Introducimos y estudiamos el problema de la aritmética adversaria, que proporciona un banco de pruebas simple pero desafiante para la alineación de modelos de lenguaje. Este problema consiste en preguntas aritméticas formuladas en lenguaje natural, con una cadena adversaria arbitraria insertada antes de que la pregunta esté completa. Incluso en el escenario simple de problemas de suma de un dígito, es fácil encontrar indicaciones adversarias que hagan que todos los modelos probados (incluyendo PaLM2, GPT4, Claude2) se comporten incorrectamente, e incluso para dirigir a los modelos hacia una respuesta errónea específica. Además, proporcionamos un algoritmo simple para encontrar ataques exitosos consultando esos mismos modelos, al que denominamos "muestreo por rechazo de inversión de indicaciones" (PIRS, por sus siglas en inglés). Finalmente, demostramos que los modelos pueden ser parcialmente fortalecidos contra estos ataques mediante aprendizaje por refuerzo y mediante bucles constitucionales agentes. Sin embargo, no logramos hacer que un modelo de lenguaje sea completamente robusto contra los ataques de aritmética adversaria.
English
We introduce and study the problem of adversarial arithmetic, which provides a simple yet challenging testbed for language model alignment. This problem is comprised of arithmetic questions posed in natural language, with an arbitrary adversarial string inserted before the question is complete. Even in the simple setting of 1-digit addition problems, it is easy to find adversarial prompts that make all tested models (including PaLM2, GPT4, Claude2) misbehave, and even to steer models to a particular wrong answer. We additionally provide a simple algorithm for finding successful attacks by querying those same models, which we name "prompt inversion rejection sampling" (PIRS). We finally show that models can be partially hardened against these attacks via reinforcement learning and via agentic constitutional loops. However, we were not able to make a language model fully robust against adversarial arithmetic attacks.
PDF50December 15, 2024