¿Pueden los LLM seguir reglas simples?
Can LLMs Follow Simple Rules?
November 6, 2023
Autores: Norman Mu, Sarah Chen, Zifan Wang, Sizhe Chen, David Karamardian, Lulwa Aljeraisy, Dan Hendrycks, David Wagner
cs.AI
Resumen
A medida que los Modelos de Lenguaje de Gran Escala (LLMs) se despliegan con responsabilidades cada vez más críticas en el mundo real, es importante poder especificar y restringir el comportamiento de estos sistemas de manera confiable. Los desarrolladores de modelos pueden desear establecer reglas explícitas, como "no generar contenido abusivo", pero estas pueden ser eludidas mediante técnicas de jailbreaking. Evaluar qué tan bien los LLMs siguen las reglas proporcionadas por los desarrolladores frente a entradas adversarias generalmente requiere revisión manual, lo que ralentiza el monitoreo y el desarrollo de métodos. Para abordar este problema, proponemos Escenarios de Evaluación de Lenguaje basados en Reglas (RuLES), un marco programático para medir la capacidad de seguimiento de reglas en LLMs. RuLES consta de 15 escenarios de texto simples en los que se instruye al modelo a obedecer un conjunto de reglas en lenguaje natural mientras interactúa con el usuario humano. Cada escenario tiene un programa de evaluación conciso para determinar si el modelo ha violado alguna regla en una conversación. A través de la exploración manual del comportamiento del modelo en nuestros escenarios, identificamos 6 categorías de estrategias de ataque y recopilamos dos conjuntos de casos de prueba: uno que consiste en conversaciones únicas de pruebas manuales y otro que implementa sistemáticamente estrategias de las 6 categorías. En varios modelos populares, tanto propietarios como de código abierto, como GPT-4 y Llama 2, encontramos que todos los modelos son susceptibles a una amplia variedad de entradas adversarias creadas manualmente por el usuario, aunque GPT-4 es el modelo con mejor rendimiento. Además, evaluamos modelos de código abierto bajo ataques basados en gradientes y encontramos vulnerabilidades significativas. Proponemos RuLES como un nuevo y desafiante entorno de investigación para explorar y defenderse tanto de ataques manuales como automáticos en LLMs.
English
As Large Language Models (LLMs) are deployed with increasing real-world
responsibilities, it is important to be able to specify and constrain the
behavior of these systems in a reliable manner. Model developers may wish to
set explicit rules for the model, such as "do not generate abusive content",
but these may be circumvented by jailbreaking techniques. Evaluating how well
LLMs follow developer-provided rules in the face of adversarial inputs
typically requires manual review, which slows down monitoring and methods
development. To address this issue, we propose Rule-following Language
Evaluation Scenarios (RuLES), a programmatic framework for measuring
rule-following ability in LLMs. RuLES consists of 15 simple text scenarios in
which the model is instructed to obey a set of rules in natural language while
interacting with the human user. Each scenario has a concise evaluation program
to determine whether the model has broken any rules in a conversation. Through
manual exploration of model behavior in our scenarios, we identify 6 categories
of attack strategies and collect two suites of test cases: one consisting of
unique conversations from manual testing and one that systematically implements
strategies from the 6 categories. Across various popular proprietary and open
models such as GPT-4 and Llama 2, we find that all models are susceptible to a
wide variety of adversarial hand-crafted user inputs, though GPT-4 is the
best-performing model. Additionally, we evaluate open models under
gradient-based attacks and find significant vulnerabilities. We propose RuLES
as a challenging new setting for research into exploring and defending against
both manual and automatic attacks on LLMs.