Suprimindo Elefantes Cor-de-Rosa com Feedback Direto de Princípios

Resumo

Os métodos existentes para controlar modelos de linguagem, como RLHF e Constitutional AI, envolvem determinar quais comportamentos de LLM são desejáveis e treiná-los em um modelo de linguagem. No entanto, em muitos casos, é desejável que os LLMs sejam controláveis no momento da inferência, para que possam ser usados em múltiplos contextos com necessidades diversas. Ilustramos isso com o Problema do Elefante Rosa: instruir um LLM a evitar discutir uma certa entidade (um "Elefante Rosa") e, em vez disso, discutir uma entidade preferida ("Elefante Cinza"). Aplicamos uma nova simplificação do Constitutional AI, o Feedback Direto de Princípios (Direct Principle Feedback - DPF), que ignora a classificação de respostas e usa DPO diretamente em críticas e revisões. Nossos resultados mostram que, após o ajuste fino com DPF em nosso conjunto de dados sintético de Elefantes Rosa, nosso modelo LLaMA 2 de 13B ajustado supera significativamente o Llama-2-13B-Chat e uma linha de base com prompts, e tem um desempenho tão bom quanto o GPT-4 em nosso conjunto de testes curados que avalia o Problema do Elefante Rosa.

English

Existing methods for controlling language models, such as RLHF and Constitutional AI, involve determining which LLM behaviors are desirable and training them into a language model. However, in many cases, it is desirable for LLMs to be controllable at inference time, so that they can be used in multiple contexts with diverse needs. We illustrate this with the Pink Elephant Problem: instructing an LLM to avoid discussing a certain entity (a ``Pink Elephant''), and instead discuss a preferred entity (``Grey Elephant''). We apply a novel simplification of Constitutional AI, Direct Principle Feedback, which skips the ranking of responses and uses DPO directly on critiques and revisions. Our results show that after DPF fine-tuning on our synthetic Pink Elephants dataset, our 13B fine-tuned LLaMA 2 model significantly outperforms Llama-2-13B-Chat and a prompted baseline, and performs as well as GPT-4 in on our curated test set assessing the Pink Elephant Problem.

Suprimindo Elefantes Cor-de-Rosa com Feedback Direto de Princípios

Suppressing Pink Elephants with Direct Principle Feedback

Resumo

Support