Edição de Modelos com Exemplos Canônicos

Resumo

Apresentamos a edição de modelos com exemplos canônicos, um cenário em que (1) um único exemplo de aprendizado é fornecido para cada comportamento desejado, (2) a avaliação é realizada exclusivamente fora da distribuição, e (3) o desvio de um modelo inicial é estritamente limitado. Um exemplo canônico é uma instância simples de bom comportamento, por exemplo, "A capital de Maurício é Port Louis", ou de mau comportamento, por exemplo, "Um aspecto dos pesquisadores é a frieza". O conjunto de avaliação contém exemplos mais complexos de cada comportamento (como um parágrafo em que a capital de Maurício é solicitada). Criamos três conjuntos de dados e modificamos mais três para a edição de modelos com exemplos canônicos, abrangendo melhorias intensivas em conhecimento, mitigação de viés social e casos extremos sintáticos. Em nossos experimentos com modelos de linguagem Pythia, descobrimos que o LoRA supera o ajuste fino completo e o MEMIT. Em seguida, voltamos nossa atenção para a arquitetura do modelo de linguagem Backpack, pois ela foi projetada para permitir melhorias direcionadas. O Backpack define um grande banco de vetores de sentido—uma decomposição dos diferentes usos de cada palavra—que são ponderados e somados para formar os logits de saída do modelo. Propomos o ajuste fino de sentido, que seleciona e ajusta alguns (aproximadamente 10) vetores de sentido para cada exemplo canônico, e descobrimos que ele supera outros métodos de ajuste fino, por exemplo, uma melhoria de 4,8% contra 0,3%. Por fim, melhoramos o GPT-J-6B por meio de um ensemble em tempo de inferência com apenas as alterações do ajuste fino de sentido de um Backpack 35 vezes menor, em um cenário superando a edição do próprio GPT-J (4,1% vs 1,0%).

English

We introduce model editing with canonical examples, a setting in which (1) a single learning example is provided per desired behavior, (2) evaluation is performed exclusively out-of-distribution, and (3) deviation from an initial model is strictly limited. A canonical example is a simple instance of good behavior, e.g., The capital of Mauritius is Port Louis) or bad behavior, e.g., An aspect of researchers is coldhearted). The evaluation set contains more complex examples of each behavior (like a paragraph in which the capital of Mauritius is called for.) We create three datasets and modify three more for model editing with canonical examples, covering knowledge-intensive improvements, social bias mitigation, and syntactic edge cases. In our experiments on Pythia language models, we find that LoRA outperforms full finetuning and MEMIT. We then turn to the Backpack language model architecture because it is intended to enable targeted improvement. The Backpack defines a large bank of sense vectors--a decomposition of the different uses of each word--which are weighted and summed to form the output logits of the model. We propose sense finetuning, which selects and finetunes a few (approx 10) sense vectors for each canonical example, and find that it outperforms other finetuning methods, e.g., 4.8% improvement vs 0.3%. Finally, we improve GPT-J-6B by an inference-time ensemble with just the changes from sense finetuning of a 35x smaller Backpack, in one setting outperforming editing GPT-J itself (4.1% vs 1.0%).

Edição de Modelos com Exemplos Canônicos

Model Editing with Canonical Examples

Resumo

Support