Дельта-активации: Представление для дообученных больших языковых моделей
Delta Activations: A Representation for Finetuned Large Language Models
September 4, 2025
Авторы: Zhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim
cs.AI
Аннотация
Успех мощных открытых больших языковых моделей (LLM) позволил сообществу создать обширную коллекцию дообученных моделей, адаптированных к конкретным задачам и доменам. Однако навигация и понимание этих моделей остаются сложными из-за несогласованных метаданных и неструктурированных репозиториев. Мы представляем метод Delta Activations, который позволяет представлять дообученные модели в виде векторных эмбеддингов, измеряя сдвиги в их внутренних активациях относительно базовой модели. Это представление позволяет эффективно кластеризовать модели по доменам и задачам, выявляя структуру в ландшафте моделей. Delta Activations также демонстрируют желаемые свойства: метод устойчив к различным настройкам дообучения и проявляет аддитивное свойство при смешивании наборов данных для дообучения. Кроме того, мы показываем, что Delta Activations могут представлять задачи с помощью немногих примеров дообучения, а также исследуем их использование для выбора и объединения моделей. Мы надеемся, что Delta Activations смогут упростить практику повторного использования общедоступных моделей. Код доступен по адресу https://github.com/OscarXZQ/delta_activations.
English
The success of powerful open source Large Language Models (LLMs) has enabled
the community to create a vast collection of post-trained models adapted to
specific tasks and domains. However, navigating and understanding these models
remains challenging due to inconsistent metadata and unstructured repositories.
We introduce Delta Activations, a method to represent finetuned models as
vector embeddings by measuring shifts in their internal activations relative to
a base model. This representation allows for effective clustering by domain and
task, revealing structure in the model landscape. Delta Activations also
demonstrate desirable properties: it is robust across finetuning settings and
exhibits an additive property when finetuning datasets are mixed. In addition,
we show that Delta Activations can embed tasks via few-shot finetuning, and
further explore its use for model selection and merging. We hope Delta
Activations can facilitate the practice of reusing publicly available models.
Code is available at https://github.com/OscarXZQ/delta_activations.