Modifica del Modello con Esempi Canonici
Model Editing with Canonical Examples
February 9, 2024
Autori: John Hewitt, Sarah Chen, Lanruo Lora Xie, Edward Adams, Percy Liang, Christopher D. Manning
cs.AI
Abstract
Introduciamo la modifica del modello con esempi canonici, un contesto in cui (1) viene fornito un singolo esempio di apprendimento per ogni comportamento desiderato, (2) la valutazione viene eseguita esclusivamente fuori distribuzione e (3) la deviazione da un modello iniziale è strettamente limitata. Un esempio canonico è un'istanza semplice di comportamento positivo, ad esempio "La capitale di Mauritius è Port Louis", o negativo, ad esempio "Un aspetto dei ricercatori è l'insensibilità". Il set di valutazione contiene esempi più complessi di ciascun comportamento (come un paragrafo in cui viene menzionata la capitale di Mauritius). Creiamo tre dataset e ne modifichiamo altri tre per la modifica del modello con esempi canonici, coprendo miglioramenti basati sulla conoscenza, mitigazione dei bias sociali e casi limite sintattici. Nei nostri esperimenti sui modelli linguistici Pythia, riscontriamo che LoRA supera il fine-tuning completo e MEMIT. Successivamente, ci rivolgiamo all'architettura del modello linguistico Backpack perché è progettata per consentire miglioramenti mirati. Il Backpack definisce un ampio insieme di vettori di senso—una scomposizione dei diversi usi di ciascuna parola—che vengono ponderati e sommati per formare i logit di output del modello. Proponiamo il fine-tuning dei sensi, che seleziona e ottimizza alcuni vettori di senso (circa 10) per ogni esempio canonico, e scopriamo che supera altri metodi di fine-tuning, ad esempio un miglioramento del 4,8% rispetto allo 0,3%. Infine, miglioriamo GPT-J-6B con un ensemble al momento dell'inferenza utilizzando solo le modifiche derivanti dal fine-tuning dei sensi di un Backpack 35 volte più piccolo, in un contesto superando la modifica di GPT-J stesso (4,1% vs 1,0%).
English
We introduce model editing with canonical examples, a setting in which (1) a
single learning example is provided per desired behavior, (2) evaluation is
performed exclusively out-of-distribution, and (3) deviation from an initial
model is strictly limited. A canonical example is a simple instance of good
behavior, e.g., The capital of Mauritius is Port Louis) or bad behavior, e.g.,
An aspect of researchers is coldhearted). The evaluation set contains more
complex examples of each behavior (like a paragraph in which the capital of
Mauritius is called for.) We create three datasets and modify three more for
model editing with canonical examples, covering knowledge-intensive
improvements, social bias mitigation, and syntactic edge cases. In our
experiments on Pythia language models, we find that LoRA outperforms full
finetuning and MEMIT. We then turn to the Backpack language model architecture
because it is intended to enable targeted improvement. The Backpack defines a
large bank of sense vectors--a decomposition of the different uses of each
word--which are weighted and summed to form the output logits of the model. We
propose sense finetuning, which selects and finetunes a few (approx 10)
sense vectors for each canonical example, and find that it outperforms other
finetuning methods, e.g., 4.8% improvement vs 0.3%. Finally, we improve
GPT-J-6B by an inference-time ensemble with just the changes from sense
finetuning of a 35x smaller Backpack, in one setting outperforming editing
GPT-J itself (4.1% vs 1.0%).