ReFT: Ajuste Fino de Representação para Modelos de Linguagem
ReFT: Representation Finetuning for Language Models
April 4, 2024
Autores: Zhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts
cs.AI
Resumo
Métodos de ajuste fino eficiente em parâmetros (PEFT) buscam adaptar modelos grandes por meio de atualizações em um pequeno número de pesos. No entanto, muito trabalho prévio em interpretabilidade mostrou que as representações codificam informações semânticas ricas, sugerindo que a edição de representações pode ser uma alternativa mais poderosa. Aqui, exploramos essa hipótese desenvolvendo uma família de métodos de Ajuste Fino de Representações (ReFT). Os métodos ReFT operam em um modelo base congelado e aprendem intervenções específicas para tarefas nas representações ocultas. Definimos uma instância robusta da família ReFT, o ReFT de Subespaço Linear de Baixa Dimensão (LoReFT). O LoReFT é uma substituição direta para os PEFTs existentes e aprende intervenções que são 10x a 50x mais eficientes em parâmetros do que os PEFTs de última geração anteriores. Demonstramos o LoReFT em oito tarefas de raciocínio de senso comum, quatro tarefas de raciocínio aritmético, Alpaca-Eval v1.0 e GLUE. Em todas essas avaliações, o LoReFT oferece o melhor equilíbrio entre eficiência e desempenho, e quase sempre supera os PEFTs de última geração. Lançamos publicamente uma biblioteca genérica de treinamento ReFT em https://github.com/stanfordnlp/pyreft.
English
Parameter-efficient fine-tuning (PEFT) methods seek to adapt large models via
updates to a small number of weights. However, much prior interpretability work
has shown that representations encode rich semantic information, suggesting
that editing representations might be a more powerful alternative. Here, we
pursue this hypothesis by developing a family of Representation
Finetuning (ReFT) methods. ReFT methods operate on a frozen base model and
learn task-specific interventions on hidden representations. We define a strong
instance of the ReFT family, Low-rank Linear Subspace ReFT (LoReFT). LoReFT is
a drop-in replacement for existing PEFTs and learns interventions that are
10x-50x more parameter-efficient than prior state-of-the-art PEFTs. We showcase
LoReFT on eight commonsense reasoning tasks, four arithmetic reasoning tasks,
Alpaca-Eval v1.0, and GLUE. In all these evaluations, LoReFT delivers the best
balance of efficiency and performance, and almost always outperforms
state-of-the-art PEFTs. We release a generic ReFT training library publicly at
https://github.com/stanfordnlp/pyreft.