ChatPaper.aiChatPaper

Le temps est encodé dans les poids des modèles de langage affinés.

Time is Encoded in the Weights of Finetuned Language Models

December 20, 2023
Auteurs: Kai Nylund, Suchin Gururangan, Noah A. Smith
cs.AI

Résumé

Nous présentons les vecteurs temporels, un outil simple pour adapter les modèles de langage à de nouvelles périodes temporelles. Les vecteurs temporels sont créés en affinant un modèle de langage sur des données provenant d'une seule période (par exemple, une année ou un mois), puis en soustrayant les poids du modèle pré-entraîné d'origine. Ce vecteur spécifie une direction dans l'espace des poids qui, comme le montrent nos expériences, améliore les performances sur les textes de cette période. Les vecteurs temporels spécialisés pour des périodes adjacentes semblent être positionnés plus proches les uns des autres dans une variété. En utilisant cette structure, nous interpolons entre les vecteurs temporels pour induire de nouveaux modèles qui performent mieux sur les périodes intermédiaires et futures, sans aucun entraînement supplémentaire. Nous démontrons la cohérence de nos résultats à travers différentes tâches, domaines, tailles de modèles et échelles temporelles. Nos résultats suggèrent que le temps est encodé dans l'espace des poids des modèles affinés.
English
We present time vectors, a simple tool to customize language models to new time periods. Time vectors are created by finetuning a language model on data from a single time (e.g., a year or month), and then subtracting the weights of the original pretrained model. This vector specifies a direction in weight space that, as our experiments show, improves performance on text from that time period. Time vectors specialized to adjacent time periods appear to be positioned closer together in a manifold. Using this structure, we interpolate between time vectors to induce new models that perform better on intervening and future time periods, without any additional training. We demonstrate the consistency of our findings across different tasks, domains, model sizes, and time scales. Our results suggest that time is encoded in the weight space of finetuned models.
PDF211December 15, 2024