ChatPaper.aiChatPaper

ReFT: Representatie Fine-tuning voor Taalmodellen

ReFT: Representation Finetuning for Language Models

April 4, 2024
Auteurs: Zhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts
cs.AI

Samenvatting

Parameter-efficient fine-tuning (PEFT)-methoden streven ernaar grote modellen aan te passen door updates aan een klein aantal gewichten. Echter heeft veel eerder interpretatieonderzoek aangetoond dat representaties rijke semantische informatie coderen, wat suggereert dat het bewerken van representaties een krachtiger alternatief zou kunnen zijn. Hier onderzoeken we deze hypothese door een familie van Representation Finetuning (ReFT)-methoden te ontwikkelen. ReFT-methoden werken op een bevroren basismodel en leren taakspecifieke interventies op verborgen representaties. We definiëren een sterk voorbeeld van de ReFT-familie, Low-rank Linear Subspace ReFT (LoReFT). LoReFT is een directe vervanging voor bestaande PEFT's en leert interventies die 10x-50x parameter-efficiënter zijn dan de state-of-the-art PEFT's. We demonstreren LoReFT op acht commonsense-redeneertaken, vier rekenkundige redeneertaken, Alpaca-Eval v1.0 en GLUE. In al deze evaluaties biedt LoReFT de beste balans tussen efficiëntie en prestaties, en presteert bijna altijd beter dan state-of-the-art PEFT's. We hebben een generieke ReFT-trainingsbibliotheek openbaar vrijgegeven op https://github.com/stanfordnlp/pyreft.
English
Parameter-efficient fine-tuning (PEFT) methods seek to adapt large models via updates to a small number of weights. However, much prior interpretability work has shown that representations encode rich semantic information, suggesting that editing representations might be a more powerful alternative. Here, we pursue this hypothesis by developing a family of Representation Finetuning (ReFT) methods. ReFT methods operate on a frozen base model and learn task-specific interventions on hidden representations. We define a strong instance of the ReFT family, Low-rank Linear Subspace ReFT (LoReFT). LoReFT is a drop-in replacement for existing PEFTs and learns interventions that are 10x-50x more parameter-efficient than prior state-of-the-art PEFTs. We showcase LoReFT on eight commonsense reasoning tasks, four arithmetic reasoning tasks, Alpaca-Eval v1.0, and GLUE. In all these evaluations, LoReFT delivers the best balance of efficiency and performance, and almost always outperforms state-of-the-art PEFTs. We release a generic ReFT training library publicly at https://github.com/stanfordnlp/pyreft.
PDF10117February 8, 2026