O tempo está codificado nos pesos de modelos de linguagem ajustados finamente.
Time is Encoded in the Weights of Finetuned Language Models
December 20, 2023
Autores: Kai Nylund, Suchin Gururangan, Noah A. Smith
cs.AI
Resumo
Apresentamos vetores temporais, uma ferramenta simples para personalizar modelos de linguagem para novos períodos de tempo. Os vetores temporais são criados ajustando um modelo de linguagem em dados de um único período (por exemplo, um ano ou mês) e, em seguida, subtraindo os pesos do modelo pré-treinado original. Esse vetor especifica uma direção no espaço de pesos que, como nossos experimentos mostram, melhora o desempenho em textos desse período. Vetores temporais especializados para períodos adjacentes parecem estar posicionados mais próximos uns dos outros em uma variedade. Utilizando essa estrutura, interpolamos entre vetores temporais para induzir novos modelos que apresentam melhor desempenho em períodos intermediários e futuros, sem qualquer treinamento adicional. Demonstramos a consistência de nossas descobertas em diferentes tarefas, domínios, tamanhos de modelos e escalas de tempo. Nossos resultados sugerem que o tempo é codificado no espaço de pesos de modelos ajustados.
English
We present time vectors, a simple tool to customize language models to new
time periods. Time vectors are created by finetuning a language model on data
from a single time (e.g., a year or month), and then subtracting the weights of
the original pretrained model. This vector specifies a direction in weight
space that, as our experiments show, improves performance on text from that
time period. Time vectors specialized to adjacent time periods appear to be
positioned closer together in a manifold. Using this structure, we interpolate
between time vectors to induce new models that perform better on intervening
and future time periods, without any additional training. We demonstrate the
consistency of our findings across different tasks, domains, model sizes, and
time scales. Our results suggest that time is encoded in the weight space of
finetuned models.