Rastreo de Características Universales a Través del Ajuste Fino y la Fusión de Modelos
Tracking Universal Features Through Fine-Tuning and Model Merging
October 16, 2024
Autores: Niels Horn, Desmond Elliott
cs.AI
Resumen
Estudiamos cómo las características emergen, desaparecen y persisten a través de modelos ajustados finamente en diferentes dominios de texto. Más específicamente, partimos de un modelo de lenguaje Transformer de una capa base que se entrena en una combinación del corpus BabyLM y una colección de código Python de The Stack. Este modelo base se adapta a dos nuevos dominios de texto: TinyStories y el lenguaje de programación Lua, respectivamente; luego, estos dos modelos se fusionan utilizando interpolación lineal esférica. Nuestra exploración tiene como objetivo proporcionar una comprensión más profunda sobre la estabilidad y transformación de características en escenarios típicos de transferencia de aprendizaje utilizando modelos a pequeña escala y auto-codificadores dispersos.
English
We study how features emerge, disappear, and persist across models fine-tuned
on different domains of text. More specifically, we start from a base one-layer
Transformer language model that is trained on a combination of the BabyLM
corpus, and a collection of Python code from The Stack. This base model is
adapted to two new domains of text: TinyStories, and the Lua programming
language, respectively; and then these two models are merged using these two
models using spherical linear interpolation. Our exploration aims to provide
deeper insights into the stability and transformation of features across
typical transfer-learning scenarios using small-scale models and sparse
auto-encoders.Summary
AI-Generated Summary