Modification de modèles à l'aide d'exemples canoniques
Model Editing with Canonical Examples
February 9, 2024
Auteurs: John Hewitt, Sarah Chen, Lanruo Lora Xie, Edward Adams, Percy Liang, Christopher D. Manning
cs.AI
Résumé
Nous introduisons l'édition de modèles avec des exemples canoniques, un cadre dans lequel (1) un seul exemple d'apprentissage est fourni pour chaque comportement souhaité, (2) l'évaluation est réalisée exclusivement hors distribution, et (3) l'écart par rapport à un modèle initial est strictement limité. Un exemple canonique est une instance simple de bon comportement, par exemple, "La capitale de Maurice est Port Louis", ou de mauvais comportement, par exemple, "Un aspect des chercheurs est insensible". L'ensemble d'évaluation contient des exemples plus complexes de chaque comportement (comme un paragraphe dans lequel la capitale de Maurice est mentionnée). Nous créons trois jeux de données et en modifions trois autres pour l'édition de modèles avec des exemples canoniques, couvrant des améliorations intensives en connaissances, l'atténuation des biais sociaux et des cas limites syntaxiques. Dans nos expériences sur les modèles de langage Pythia, nous constatons que LoRA surpasse le fine-tuning complet et MEMIT. Nous nous tournons ensuite vers l'architecture de modèle de langage Backpack car elle est conçue pour permettre des améliorations ciblées. Le Backpack définit une grande banque de vecteurs de sens—une décomposition des différentes utilisations de chaque mot—qui sont pondérés et sommés pour former les logits de sortie du modèle. Nous proposons le fine-tuning de sens, qui sélectionne et affine quelques vecteurs de sens (environ 10) pour chaque exemple canonique, et constatons qu'il surpasse d'autres méthodes de fine-tuning, par exemple, une amélioration de 4,8 % contre 0,3 %. Enfin, nous améliorons GPT-J-6B par un ensemble au moment de l'inférence avec uniquement les changements issus du fine-tuning de sens d'un Backpack 35 fois plus petit, surpassant dans un cas l'édition de GPT-J lui-même (4,1 % contre 1,0 %).
English
We introduce model editing with canonical examples, a setting in which (1) a
single learning example is provided per desired behavior, (2) evaluation is
performed exclusively out-of-distribution, and (3) deviation from an initial
model is strictly limited. A canonical example is a simple instance of good
behavior, e.g., The capital of Mauritius is Port Louis) or bad behavior, e.g.,
An aspect of researchers is coldhearted). The evaluation set contains more
complex examples of each behavior (like a paragraph in which the capital of
Mauritius is called for.) We create three datasets and modify three more for
model editing with canonical examples, covering knowledge-intensive
improvements, social bias mitigation, and syntactic edge cases. In our
experiments on Pythia language models, we find that LoRA outperforms full
finetuning and MEMIT. We then turn to the Backpack language model architecture
because it is intended to enable targeted improvement. The Backpack defines a
large bank of sense vectors--a decomposition of the different uses of each
word--which are weighted and summed to form the output logits of the model. We
propose sense finetuning, which selects and finetunes a few (approx 10)
sense vectors for each canonical example, and find that it outperforms other
finetuning methods, e.g., 4.8% improvement vs 0.3%. Finally, we improve
GPT-J-6B by an inference-time ensemble with just the changes from sense
finetuning of a 35x smaller Backpack, in one setting outperforming editing
GPT-J itself (4.1% vs 1.0%).