ReFT : Affinage des Représentations pour les Modèles de Langage
ReFT: Representation Finetuning for Language Models
April 4, 2024
Auteurs: Zhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts
cs.AI
Résumé
Les méthodes de fine-tuning paramétriquement efficaces (PEFT) visent à adapter les grands modèles via des mises à jour d'un petit nombre de poids. Cependant, de nombreux travaux antérieurs en interprétabilité ont montré que les représentations encodent des informations sémantiques riches, suggérant que la modification des représentations pourrait constituer une alternative plus puissante. Ici, nous explorons cette hypothèse en développant une famille de méthodes de Fine-tuning des Représentations (ReFT). Les méthodes ReFT opèrent sur un modèle de base figé et apprennent des interventions spécifiques à la tâche sur les représentations cachées. Nous définissons une instance forte de la famille ReFT, le ReFT de Sous-espace Linéaire de Bas Rang (LoReFT). LoReFT est un remplacement direct des PEFT existants et apprend des interventions qui sont 10 à 50 fois plus efficaces en termes de paramètres que les PEFT de pointe précédents. Nous présentons LoReFT sur huit tâches de raisonnement de bon sens, quatre tâches de raisonnement arithmétique, Alpaca-Eval v1.0 et GLUE. Dans toutes ces évaluations, LoReFT offre le meilleur équilibre entre efficacité et performance, et surpasse presque toujours les PEFT de pointe. Nous rendons publique une bibliothèque générique d'entraînement ReFT à l'adresse https://github.com/stanfordnlp/pyreft.
English
Parameter-efficient fine-tuning (PEFT) methods seek to adapt large models via
updates to a small number of weights. However, much prior interpretability work
has shown that representations encode rich semantic information, suggesting
that editing representations might be a more powerful alternative. Here, we
pursue this hypothesis by developing a family of Representation
Finetuning (ReFT) methods. ReFT methods operate on a frozen base model and
learn task-specific interventions on hidden representations. We define a strong
instance of the ReFT family, Low-rank Linear Subspace ReFT (LoReFT). LoReFT is
a drop-in replacement for existing PEFTs and learns interventions that are
10x-50x more parameter-efficient than prior state-of-the-art PEFTs. We showcase
LoReFT on eight commonsense reasoning tasks, four arithmetic reasoning tasks,
Alpaca-Eval v1.0, and GLUE. In all these evaluations, LoReFT delivers the best
balance of efficiency and performance, and almost always outperforms
state-of-the-art PEFTs. We release a generic ReFT training library publicly at
https://github.com/stanfordnlp/pyreft.Summary
AI-Generated Summary