ChatPaper.aiChatPaper

¿Las redes neuronales alineadas están alineadas de manera adversaria?

Are aligned neural networks adversarially aligned?

June 26, 2023
Autores: Nicholas Carlini, Milad Nasr, Christopher A. Choquette-Choo, Matthew Jagielski, Irena Gao, Anas Awadalla, Pang Wei Koh, Daphne Ippolito, Katherine Lee, Florian Tramer, Ludwig Schmidt
cs.AI

Resumen

Los grandes modelos de lenguaje ahora están ajustados para alinearse con los objetivos de sus creadores, específicamente para ser "útiles e inofensivos". Estos modelos deben responder de manera útil a las preguntas de los usuarios, pero rechazar solicitudes que podrían causar daño. Sin embargo, los usuarios adversarios pueden construir entradas que eluden los intentos de alineación. En este trabajo, estudiamos hasta qué punto estos modelos permanecen alineados, incluso cuando interactúan con un usuario adversario que construye entradas de peor caso (ejemplos adversarios). Estas entradas están diseñadas para hacer que el modelo emita contenido dañino que de otro modo estaría prohibido. Mostramos que los ataques de optimización basados en PLN existentes no son lo suficientemente potentes para atacar de manera confiable a los modelos de texto alineados: incluso cuando los ataques actuales basados en PLN fallan, podemos encontrar entradas adversarias mediante fuerza bruta. Como resultado, el fracaso de los ataques actuales no debe verse como una prueba de que los modelos de texto alineados permanecen alineados bajo entradas adversarias. Sin embargo, la tendencia reciente en los modelos de aprendizaje automático a gran escala son los modelos multimodales que permiten a los usuarios proporcionar imágenes que influyen en el texto generado. Mostramos que estos modelos pueden ser atacados fácilmente, es decir, inducidos a realizar comportamientos no alineados arbitrarios mediante perturbaciones adversarias de la imagen de entrada. Conjeturamos que los ataques mejorados de PLN pueden demostrar este mismo nivel de control adversario sobre los modelos de solo texto.
English
Large language models are now tuned to align with the goals of their creators, namely to be "helpful and harmless." These models should respond helpfully to user questions, but refuse to answer requests that could cause harm. However, adversarial users can construct inputs which circumvent attempts at alignment. In this work, we study to what extent these models remain aligned, even when interacting with an adversarial user who constructs worst-case inputs (adversarial examples). These inputs are designed to cause the model to emit harmful content that would otherwise be prohibited. We show that existing NLP-based optimization attacks are insufficiently powerful to reliably attack aligned text models: even when current NLP-based attacks fail, we can find adversarial inputs with brute force. As a result, the failure of current attacks should not be seen as proof that aligned text models remain aligned under adversarial inputs. However the recent trend in large-scale ML models is multimodal models that allow users to provide images that influence the text that is generated. We show these models can be easily attacked, i.e., induced to perform arbitrary un-aligned behavior through adversarial perturbation of the input image. We conjecture that improved NLP attacks may demonstrate this same level of adversarial control over text-only models.
PDF50December 15, 2024