Modelbewerking met Canonieke Voorbeelden
Model Editing with Canonical Examples
February 9, 2024
Auteurs: John Hewitt, Sarah Chen, Lanruo Lora Xie, Edward Adams, Percy Liang, Christopher D. Manning
cs.AI
Samenvatting
We introduceren model editing met canonieke voorbeelden, een setting waarin (1) een enkel leervoorbeeld wordt gegeven voor elk gewenst gedrag, (2) evaluatie uitsluitend out-of-distribution plaatsvindt, en (3) afwijking van een initieel model strikt beperkt is. Een canoniek voorbeeld is een eenvoudig geval van goed gedrag, bijvoorbeeld "De hoofdstad van Mauritius is Port Louis" of slecht gedrag, bijvoorbeeld "Een aspect van onderzoekers is kilhartig". De evaluatieset bevat complexere voorbeelden van elk gedrag (zoals een alinea waarin de hoofdstad van Mauritius wordt genoemd). We creëren drie datasets en passen er drie meer aan voor model editing met canonieke voorbeelden, waarbij kennisintensieve verbeteringen, het verminderen van sociale vooroordelen en syntactische randgevallen worden behandeld. In onze experimenten met Pythia-taalmodellen vinden we dat LoRA beter presteert dan volledige finetuning en MEMIT. Vervolgens richten we ons op de Backpack-taalmodelarchitectuur omdat deze gericht is op gerichte verbetering. De Backpack definieert een grote bank van betekenisvectoren—een decompositie van de verschillende gebruiksmogelijkheden van elk woord—die worden gewogen en opgeteld om de uitvoerlogits van het model te vormen. We stellen betekenis-finetuning voor, waarbij een paar (ongeveer 10) betekenisvectoren worden geselecteerd en gefinetuned voor elk canoniek voorbeeld, en we ontdekken dat dit andere finetuningmethoden overtreft, bijvoorbeeld een verbetering van 4,8% versus 0,3%. Ten slotte verbeteren we GPT-J-6B door een inferentie-tijdensemble met alleen de wijzigingen van betekenis-finetuning van een 35x kleinere Backpack, waarbij in één setting het bewerken van GPT-J zelf wordt overtroffen (4,1% versus 1,0%).
English
We introduce model editing with canonical examples, a setting in which (1) a
single learning example is provided per desired behavior, (2) evaluation is
performed exclusively out-of-distribution, and (3) deviation from an initial
model is strictly limited. A canonical example is a simple instance of good
behavior, e.g., The capital of Mauritius is Port Louis) or bad behavior, e.g.,
An aspect of researchers is coldhearted). The evaluation set contains more
complex examples of each behavior (like a paragraph in which the capital of
Mauritius is called for.) We create three datasets and modify three more for
model editing with canonical examples, covering knowledge-intensive
improvements, social bias mitigation, and syntactic edge cases. In our
experiments on Pythia language models, we find that LoRA outperforms full
finetuning and MEMIT. We then turn to the Backpack language model architecture
because it is intended to enable targeted improvement. The Backpack defines a
large bank of sense vectors--a decomposition of the different uses of each
word--which are weighted and summed to form the output logits of the model. We
propose sense finetuning, which selects and finetunes a few (approx 10)
sense vectors for each canonical example, and find that it outperforms other
finetuning methods, e.g., 4.8% improvement vs 0.3%. Finally, we improve
GPT-J-6B by an inference-time ensemble with just the changes from sense
finetuning of a 35x smaller Backpack, in one setting outperforming editing
GPT-J itself (4.1% vs 1.0%).