¿Pueden los LLM seguir reglas simples?

Resumen

A medida que los Modelos de Lenguaje de Gran Escala (LLMs) se despliegan con responsabilidades cada vez más críticas en el mundo real, es importante poder especificar y restringir el comportamiento de estos sistemas de manera confiable. Los desarrolladores de modelos pueden desear establecer reglas explícitas, como "no generar contenido abusivo", pero estas pueden ser eludidas mediante técnicas de jailbreaking. Evaluar qué tan bien los LLMs siguen las reglas proporcionadas por los desarrolladores frente a entradas adversarias generalmente requiere revisión manual, lo que ralentiza el monitoreo y el desarrollo de métodos. Para abordar este problema, proponemos Escenarios de Evaluación de Lenguaje basados en Reglas (RuLES), un marco programático para medir la capacidad de seguimiento de reglas en LLMs. RuLES consta de 15 escenarios de texto simples en los que se instruye al modelo a obedecer un conjunto de reglas en lenguaje natural mientras interactúa con el usuario humano. Cada escenario tiene un programa de evaluación conciso para determinar si el modelo ha violado alguna regla en una conversación. A través de la exploración manual del comportamiento del modelo en nuestros escenarios, identificamos 6 categorías de estrategias de ataque y recopilamos dos conjuntos de casos de prueba: uno que consiste en conversaciones únicas de pruebas manuales y otro que implementa sistemáticamente estrategias de las 6 categorías. En varios modelos populares, tanto propietarios como de código abierto, como GPT-4 y Llama 2, encontramos que todos los modelos son susceptibles a una amplia variedad de entradas adversarias creadas manualmente por el usuario, aunque GPT-4 es el modelo con mejor rendimiento. Además, evaluamos modelos de código abierto bajo ataques basados en gradientes y encontramos vulnerabilidades significativas. Proponemos RuLES como un nuevo y desafiante entorno de investigación para explorar y defenderse tanto de ataques manuales como automáticos en LLMs.

English

As Large Language Models (LLMs) are deployed with increasing real-world responsibilities, it is important to be able to specify and constrain the behavior of these systems in a reliable manner. Model developers may wish to set explicit rules for the model, such as "do not generate abusive content", but these may be circumvented by jailbreaking techniques. Evaluating how well LLMs follow developer-provided rules in the face of adversarial inputs typically requires manual review, which slows down monitoring and methods development. To address this issue, we propose Rule-following Language Evaluation Scenarios (RuLES), a programmatic framework for measuring rule-following ability in LLMs. RuLES consists of 15 simple text scenarios in which the model is instructed to obey a set of rules in natural language while interacting with the human user. Each scenario has a concise evaluation program to determine whether the model has broken any rules in a conversation. Through manual exploration of model behavior in our scenarios, we identify 6 categories of attack strategies and collect two suites of test cases: one consisting of unique conversations from manual testing and one that systematically implements strategies from the 6 categories. Across various popular proprietary and open models such as GPT-4 and Llama 2, we find that all models are susceptible to a wide variety of adversarial hand-crafted user inputs, though GPT-4 is the best-performing model. Additionally, we evaluate open models under gradient-based attacks and find significant vulnerabilities. We propose RuLES as a challenging new setting for research into exploring and defending against both manual and automatic attacks on LLMs.

¿Pueden los LLM seguir reglas simples?

Can LLMs Follow Simple Rules?

Resumen

Support