ReFT: Тонкая настройка представления для языковых моделей
ReFT: Representation Finetuning for Language Models
April 4, 2024
Авторы: Zhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts
cs.AI
Аннотация
Методы эффективной настройки параметров (PEFT) стремятся адаптировать большие модели путем обновления небольшого количества весов. Однако множество предыдущих работ по интерпретируемости показали, что представления кодируют богатую семантическую информацию, что подразумевает, что редактирование представлений может быть более мощной альтернативой. Здесь мы проверяем эту гипотезу, разрабатывая семейство методов Файн-тюнинга Представлений (ReFT). Методы ReFT работают с замороженной базовой моделью и обучают задаче-специфичные вмешательства в скрытые представления. Мы определяем сильный представитель семейства ReFT, Линейное Подпространство Малого Ранга ReFT (LoReFT). LoReFT является заменой для существующих PEFT и обучает вмешательства, которые в 10-50 раз более эффективны по параметрам, чем предыдущие передовые PEFT. Мы продемонстрировали LoReFT на восьми задачах здравого смысла, четырех задачах арифметического рассуждения, Alpaca-Eval v1.0 и GLUE. Во всех этих оценках LoReFT обеспечивает лучший баланс эффективности и производительности и почти всегда превосходит передовые PEFT. Мы публично выпустили общедоступную библиотеку обучения ReFT по адресу https://github.com/stanfordnlp/pyreft.
English
Parameter-efficient fine-tuning (PEFT) methods seek to adapt large models via
updates to a small number of weights. However, much prior interpretability work
has shown that representations encode rich semantic information, suggesting
that editing representations might be a more powerful alternative. Here, we
pursue this hypothesis by developing a family of Representation
Finetuning (ReFT) methods. ReFT methods operate on a frozen base model and
learn task-specific interventions on hidden representations. We define a strong
instance of the ReFT family, Low-rank Linear Subspace ReFT (LoReFT). LoReFT is
a drop-in replacement for existing PEFTs and learns interventions that are
10x-50x more parameter-efficient than prior state-of-the-art PEFTs. We showcase
LoReFT on eight commonsense reasoning tasks, four arithmetic reasoning tasks,
Alpaca-Eval v1.0, and GLUE. In all these evaluations, LoReFT delivers the best
balance of efficiency and performance, and almost always outperforms
state-of-the-art PEFTs. We release a generic ReFT training library publicly at
https://github.com/stanfordnlp/pyreft.Summary
AI-Generated Summary