Edição de Modelos com Exemplos Canônicos
Model Editing with Canonical Examples
February 9, 2024
Autores: John Hewitt, Sarah Chen, Lanruo Lora Xie, Edward Adams, Percy Liang, Christopher D. Manning
cs.AI
Resumo
Apresentamos a edição de modelos com exemplos canônicos, um cenário em que (1) um único exemplo de aprendizado é fornecido para cada comportamento desejado, (2) a avaliação é realizada exclusivamente fora da distribuição, e (3) o desvio de um modelo inicial é estritamente limitado. Um exemplo canônico é uma instância simples de bom comportamento, por exemplo, "A capital de Maurício é Port Louis", ou de mau comportamento, por exemplo, "Um aspecto dos pesquisadores é a frieza". O conjunto de avaliação contém exemplos mais complexos de cada comportamento (como um parágrafo em que a capital de Maurício é solicitada). Criamos três conjuntos de dados e modificamos mais três para a edição de modelos com exemplos canônicos, abrangendo melhorias intensivas em conhecimento, mitigação de viés social e casos extremos sintáticos. Em nossos experimentos com modelos de linguagem Pythia, descobrimos que o LoRA supera o ajuste fino completo e o MEMIT. Em seguida, voltamos nossa atenção para a arquitetura do modelo de linguagem Backpack, pois ela foi projetada para permitir melhorias direcionadas. O Backpack define um grande banco de vetores de sentido—uma decomposição dos diferentes usos de cada palavra—que são ponderados e somados para formar os logits de saída do modelo. Propomos o ajuste fino de sentido, que seleciona e ajusta alguns (aproximadamente 10) vetores de sentido para cada exemplo canônico, e descobrimos que ele supera outros métodos de ajuste fino, por exemplo, uma melhoria de 4,8% contra 0,3%. Por fim, melhoramos o GPT-J-6B por meio de um ensemble em tempo de inferência com apenas as alterações do ajuste fino de sentido de um Backpack 35 vezes menor, em um cenário superando a edição do próprio GPT-J (4,1% vs 1,0%).
English
We introduce model editing with canonical examples, a setting in which (1) a
single learning example is provided per desired behavior, (2) evaluation is
performed exclusively out-of-distribution, and (3) deviation from an initial
model is strictly limited. A canonical example is a simple instance of good
behavior, e.g., The capital of Mauritius is Port Louis) or bad behavior, e.g.,
An aspect of researchers is coldhearted). The evaluation set contains more
complex examples of each behavior (like a paragraph in which the capital of
Mauritius is called for.) We create three datasets and modify three more for
model editing with canonical examples, covering knowledge-intensive
improvements, social bias mitigation, and syntactic edge cases. In our
experiments on Pythia language models, we find that LoRA outperforms full
finetuning and MEMIT. We then turn to the Backpack language model architecture
because it is intended to enable targeted improvement. The Backpack defines a
large bank of sense vectors--a decomposition of the different uses of each
word--which are weighted and summed to form the output logits of the model. We
propose sense finetuning, which selects and finetunes a few (approx 10)
sense vectors for each canonical example, and find that it outperforms other
finetuning methods, e.g., 4.8% improvement vs 0.3%. Finally, we improve
GPT-J-6B by an inference-time ensemble with just the changes from sense
finetuning of a 35x smaller Backpack, in one setting outperforming editing
GPT-J itself (4.1% vs 1.0%).