Activaciones Delta: Una Representación para Modelos de Lenguaje Grande Ajustados con Fine-Tuning
Delta Activations: A Representation for Finetuned Large Language Models
September 4, 2025
Autores: Zhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim
cs.AI
Resumen
El éxito de los potentes modelos de lenguaje de gran escala (LLMs) de código abierto ha permitido a la comunidad crear una amplia colección de modelos ajustados posteriormente para tareas y dominios específicos. Sin embargo, navegar y comprender estos modelos sigue siendo un desafío debido a metadatos inconsistentes y repositorios no estructurados. Introducimos Delta Activations, un método para representar modelos ajustados como incrustaciones vectoriales midiendo los cambios en sus activaciones internas en relación con un modelo base. Esta representación permite una agrupación efectiva por dominio y tarea, revelando estructura en el panorama de los modelos. Delta Activations también demuestra propiedades deseables: es robusto en diferentes configuraciones de ajuste y exhibe una propiedad aditiva cuando se mezclan conjuntos de datos de ajuste. Además, mostramos que Delta Activations puede incrustar tareas mediante ajuste fino con pocos ejemplos, y exploramos su uso para la selección y fusión de modelos. Esperamos que Delta Activations pueda facilitar la práctica de reutilizar modelos disponibles públicamente. El código está disponible en https://github.com/OscarXZQ/delta_activations.
English
The success of powerful open source Large Language Models (LLMs) has enabled
the community to create a vast collection of post-trained models adapted to
specific tasks and domains. However, navigating and understanding these models
remains challenging due to inconsistent metadata and unstructured repositories.
We introduce Delta Activations, a method to represent finetuned models as
vector embeddings by measuring shifts in their internal activations relative to
a base model. This representation allows for effective clustering by domain and
task, revealing structure in the model landscape. Delta Activations also
demonstrate desirable properties: it is robust across finetuning settings and
exhibits an additive property when finetuning datasets are mixed. In addition,
we show that Delta Activations can embed tasks via few-shot finetuning, and
further explore its use for model selection and merging. We hope Delta
Activations can facilitate the practice of reusing publicly available models.
Code is available at https://github.com/OscarXZQ/delta_activations.