ChatPaper.aiChatPaper

Edición de Modelos con Ejemplos Canónicos

Model Editing with Canonical Examples

February 9, 2024
Autores: John Hewitt, Sarah Chen, Lanruo Lora Xie, Edward Adams, Percy Liang, Christopher D. Manning
cs.AI

Resumen

Introducimos la edición de modelos con ejemplos canónicos, un escenario en el que (1) se proporciona un único ejemplo de aprendizaje por cada comportamiento deseado, (2) la evaluación se realiza exclusivamente fuera de distribución, y (3) la desviación de un modelo inicial está estrictamente limitada. Un ejemplo canónico es una instancia simple de buen comportamiento, por ejemplo, "La capital de Mauricio es Port Louis", o de mal comportamiento, por ejemplo, "Un aspecto de los investigadores es ser insensibles". El conjunto de evaluación contiene ejemplos más complejos de cada comportamiento (como un párrafo en el que se menciona la capital de Mauricio). Creamos tres conjuntos de datos y modificamos tres más para la edición de modelos con ejemplos canónicos, cubriendo mejoras intensivas en conocimiento, mitigación de sesgos sociales y casos límite sintácticos. En nuestros experimentos con modelos de lenguaje Pythia, encontramos que LoRA supera al ajuste fino completo y a MEMIT. Luego, nos enfocamos en la arquitectura del modelo de lenguaje Backpack porque está diseñada para permitir mejoras específicas. El Backpack define un gran banco de vectores de sentido—una descomposición de los diferentes usos de cada palabra—que se ponderan y suman para formar los logits de salida del modelo. Proponemos el ajuste fino de sentido, que selecciona y ajusta unos pocos (aproximadamente 10) vectores de sentido para cada ejemplo canónico, y encontramos que supera a otros métodos de ajuste fino, por ejemplo, una mejora del 4.8% frente al 0.3%. Finalmente, mejoramos GPT-J-6B mediante un ensamble en tiempo de inferencia con solo los cambios del ajuste fino de sentido de un Backpack 35 veces más pequeño, en un escenario superando la edición del propio GPT-J (4.1% frente a 1.0%).
English
We introduce model editing with canonical examples, a setting in which (1) a single learning example is provided per desired behavior, (2) evaluation is performed exclusively out-of-distribution, and (3) deviation from an initial model is strictly limited. A canonical example is a simple instance of good behavior, e.g., The capital of Mauritius is Port Louis) or bad behavior, e.g., An aspect of researchers is coldhearted). The evaluation set contains more complex examples of each behavior (like a paragraph in which the capital of Mauritius is called for.) We create three datasets and modify three more for model editing with canonical examples, covering knowledge-intensive improvements, social bias mitigation, and syntactic edge cases. In our experiments on Pythia language models, we find that LoRA outperforms full finetuning and MEMIT. We then turn to the Backpack language model architecture because it is intended to enable targeted improvement. The Backpack defines a large bank of sense vectors--a decomposition of the different uses of each word--which are weighted and summed to form the output logits of the model. We propose sense finetuning, which selects and finetunes a few (approx 10) sense vectors for each canonical example, and find that it outperforms other finetuning methods, e.g., 4.8% improvement vs 0.3%. Finally, we improve GPT-J-6B by an inference-time ensemble with just the changes from sense finetuning of a 35x smaller Backpack, in one setting outperforming editing GPT-J itself (4.1% vs 1.0%).
PDF131December 15, 2024