ChatPaper.aiChatPaper

ReFT: Fine-tuning della Rappresentazione per Modelli Linguistici

ReFT: Representation Finetuning for Language Models

April 4, 2024
Autori: Zhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts
cs.AI

Abstract

I metodi di fine-tuning efficiente nei parametri (PEFT) mirano ad adattare modelli di grandi dimensioni attraverso aggiornamenti a un numero ridotto di pesi. Tuttavia, gran parte del lavoro precedente sull'interpretabilità ha dimostrato che le rappresentazioni codificano informazioni semantiche ricche, suggerendo che la modifica delle rappresentazioni potrebbe essere un'alternativa più potente. Qui, perseguiamo questa ipotesi sviluppando una famiglia di metodi di Fine-tuning delle Rappresentazioni (ReFT). I metodi ReFT operano su un modello base congelato e apprendono interventi specifici per il compito sulle rappresentazioni nascoste. Definiamo un'istanza forte della famiglia ReFT, il ReFT a Sottospazio Lineare di Basso Rango (LoReFT). LoReFT è un sostituto diretto per i PEFT esistenti e apprende interventi che sono 10x-50x più efficienti in termini di parametri rispetto ai migliori PEFT dello stato dell'arte. Mostriamo LoReFT su otto compiti di ragionamento di senso comune, quattro compiti di ragionamento aritmetico, Alpaca-Eval v1.0 e GLUE. In tutte queste valutazioni, LoReFT offre il miglior equilibrio tra efficienza e prestazioni e quasi sempre supera i migliori PEFT dello stato dell'arte. Rilasciamo pubblicamente una libreria generica per l'addestramento ReFT all'indirizzo https://github.com/stanfordnlp/pyreft.
English
Parameter-efficient fine-tuning (PEFT) methods seek to adapt large models via updates to a small number of weights. However, much prior interpretability work has shown that representations encode rich semantic information, suggesting that editing representations might be a more powerful alternative. Here, we pursue this hypothesis by developing a family of Representation Finetuning (ReFT) methods. ReFT methods operate on a frozen base model and learn task-specific interventions on hidden representations. We define a strong instance of the ReFT family, Low-rank Linear Subspace ReFT (LoReFT). LoReFT is a drop-in replacement for existing PEFTs and learns interventions that are 10x-50x more parameter-efficient than prior state-of-the-art PEFTs. We showcase LoReFT on eight commonsense reasoning tasks, four arithmetic reasoning tasks, Alpaca-Eval v1.0, and GLUE. In all these evaluations, LoReFT delivers the best balance of efficiency and performance, and almost always outperforms state-of-the-art PEFTs. We release a generic ReFT training library publicly at https://github.com/stanfordnlp/pyreft.
PDF10117February 8, 2026