Suprimindo Elefantes Cor-de-Rosa com Feedback Direto de Princípios
Suppressing Pink Elephants with Direct Principle Feedback
February 12, 2024
Autores: Louis Castricato, Nathan Lile, Suraj Anand, Hailey Schoelkopf, Siddharth Verma, Stella Biderman
cs.AI
Resumo
Os métodos existentes para controlar modelos de linguagem, como RLHF e Constitutional AI, envolvem determinar quais comportamentos de LLM são desejáveis e treiná-los em um modelo de linguagem. No entanto, em muitos casos, é desejável que os LLMs sejam controláveis no momento da inferência, para que possam ser usados em múltiplos contextos com necessidades diversas. Ilustramos isso com o Problema do Elefante Rosa: instruir um LLM a evitar discutir uma certa entidade (um "Elefante Rosa") e, em vez disso, discutir uma entidade preferida ("Elefante Cinza"). Aplicamos uma nova simplificação do Constitutional AI, o Feedback Direto de Princípios (Direct Principle Feedback - DPF), que ignora a classificação de respostas e usa DPO diretamente em críticas e revisões. Nossos resultados mostram que, após o ajuste fino com DPF em nosso conjunto de dados sintético de Elefantes Rosa, nosso modelo LLaMA 2 de 13B ajustado supera significativamente o Llama-2-13B-Chat e uma linha de base com prompts, e tem um desempenho tão bom quanto o GPT-4 em nosso conjunto de testes curados que avalia o Problema do Elefante Rosa.
English
Existing methods for controlling language models, such as RLHF and
Constitutional AI, involve determining which LLM behaviors are desirable and
training them into a language model. However, in many cases, it is desirable
for LLMs to be controllable at inference time, so that they can be
used in multiple contexts with diverse needs. We illustrate this with the
Pink Elephant Problem: instructing an LLM to avoid discussing a
certain entity (a ``Pink Elephant''), and instead discuss a preferred entity
(``Grey Elephant''). We apply a novel simplification of Constitutional AI,
Direct Principle Feedback, which skips the ranking of responses and
uses DPO directly on critiques and revisions. Our results show that after DPF
fine-tuning on our synthetic Pink Elephants dataset, our 13B fine-tuned LLaMA 2
model significantly outperforms Llama-2-13B-Chat and a prompted baseline, and
performs as well as GPT-4 in on our curated test set assessing the Pink
Elephant Problem.