ChatPaper.aiChatPaper

El tiempo está codificado en los pesos de los modelos de lenguaje ajustados mediante fine-tuning.

Time is Encoded in the Weights of Finetuned Language Models

December 20, 2023
Autores: Kai Nylund, Suchin Gururangan, Noah A. Smith
cs.AI

Resumen

Presentamos los vectores temporales, una herramienta sencilla para adaptar modelos de lenguaje a nuevos períodos de tiempo. Los vectores temporales se crean ajustando un modelo de lenguaje con datos de un único período (por ejemplo, un año o un mes) y luego restando los pesos del modelo preentrenado original. Este vector especifica una dirección en el espacio de pesos que, como muestran nuestros experimentos, mejora el rendimiento en textos de ese período temporal. Los vectores temporales especializados en períodos adyacentes parecen estar posicionados más cerca entre sí en una variedad. Utilizando esta estructura, interpolamos entre vectores temporales para inducir nuevos modelos que funcionan mejor en períodos intermedios y futuros, sin necesidad de entrenamiento adicional. Demostramos la consistencia de nuestros hallazgos en diferentes tareas, dominios, tamaños de modelos y escalas temporales. Nuestros resultados sugieren que el tiempo está codificado en el espacio de pesos de los modelos ajustados.
English
We present time vectors, a simple tool to customize language models to new time periods. Time vectors are created by finetuning a language model on data from a single time (e.g., a year or month), and then subtracting the weights of the original pretrained model. This vector specifies a direction in weight space that, as our experiments show, improves performance on text from that time period. Time vectors specialized to adjacent time periods appear to be positioned closer together in a manifold. Using this structure, we interpolate between time vectors to induce new models that perform better on intervening and future time periods, without any additional training. We demonstrate the consistency of our findings across different tasks, domains, model sizes, and time scales. Our results suggest that time is encoded in the weight space of finetuned models.
PDF211December 15, 2024