Могут ли большие языковые модели следовать простым правилам?

Аннотация

По мере того как крупные языковые модели (LLMs) начинают выполнять всё больше реальных задач, становится важным возможность надёжно задавать и ограничивать поведение этих систем. Разработчики моделей могут устанавливать явные правила, такие как "не генерировать оскорбительный контент", но эти правила могут быть обойдены с помощью техник взлома (jailbreaking). Оценка того, насколько хорошо LLMs следуют правилам, заданным разработчиками, в условиях враждебных входных данных, обычно требует ручной проверки, что замедляет мониторинг и разработку методов. Чтобы решить эту проблему, мы предлагаем Rule-following Language Evaluation Scenarios (RuLES) — программный фреймворк для измерения способности LLMs следовать правилам. RuLES состоит из 15 простых текстовых сценариев, в которых модель получает инструкции соблюдать набор правил на естественном языке во время взаимодействия с пользователем. Каждый сценарий включает краткую программу оценки, чтобы определить, нарушила ли модель какие-либо правила в ходе диалога. В результате ручного исследования поведения моделей в наших сценариях мы выделили 6 категорий стратегий атак и собрали два набора тестовых случаев: один состоит из уникальных диалогов, полученных в ходе ручного тестирования, а другой систематически реализует стратегии из 6 категорий. На примере различных популярных проприетарных и открытых моделей, таких как GPT-4 и Llama 2, мы обнаружили, что все модели уязвимы к широкому спектру враждебных, вручную созданных пользовательских запросов, хотя GPT-4 показала наилучшие результаты. Кроме того, мы оценили открытые модели в условиях градиентных атак и обнаружили значительные уязвимости. Мы предлагаем RuLES как новую сложную задачу для исследований, направленных на изучение и защиту от как ручных, так и автоматических атак на LLMs.

English

As Large Language Models (LLMs) are deployed with increasing real-world responsibilities, it is important to be able to specify and constrain the behavior of these systems in a reliable manner. Model developers may wish to set explicit rules for the model, such as "do not generate abusive content", but these may be circumvented by jailbreaking techniques. Evaluating how well LLMs follow developer-provided rules in the face of adversarial inputs typically requires manual review, which slows down monitoring and methods development. To address this issue, we propose Rule-following Language Evaluation Scenarios (RuLES), a programmatic framework for measuring rule-following ability in LLMs. RuLES consists of 15 simple text scenarios in which the model is instructed to obey a set of rules in natural language while interacting with the human user. Each scenario has a concise evaluation program to determine whether the model has broken any rules in a conversation. Through manual exploration of model behavior in our scenarios, we identify 6 categories of attack strategies and collect two suites of test cases: one consisting of unique conversations from manual testing and one that systematically implements strategies from the 6 categories. Across various popular proprietary and open models such as GPT-4 and Llama 2, we find that all models are susceptible to a wide variety of adversarial hand-crafted user inputs, though GPT-4 is the best-performing model. Additionally, we evaluate open models under gradient-based attacks and find significant vulnerabilities. We propose RuLES as a challenging new setting for research into exploring and defending against both manual and automatic attacks on LLMs.

Могут ли большие языковые модели следовать простым правилам?

Can LLMs Follow Simple Rules?

Аннотация

Support