ChatPaper.aiChatPaper

Tijd is gecodeerd in de gewichten van fijn afgestelde taalmodelen.

Time is Encoded in the Weights of Finetuned Language Models

December 20, 2023
Auteurs: Kai Nylund, Suchin Gururangan, Noah A. Smith
cs.AI

Samenvatting

We introduceren tijdvectoren, een eenvoudig hulpmiddel om taalmodelen aan te passen aan nieuwe tijdperken. Tijdvectoren worden gecreëerd door een taalmodel te finetunen op gegevens uit een enkele tijdsperiode (bijvoorbeeld een jaar of maand), en vervolgens de gewichten van het oorspronkelijke voorgetrainde model af te trekken. Deze vector geeft een richting in de gewichtsruimte aan die, zoals onze experimenten aantonen, de prestaties op tekst uit die tijdsperiode verbetert. Tijdvectoren die gespecialiseerd zijn in aangrenzende tijdsperioden lijken dichter bij elkaar te liggen in een variëteit. Gebruikmakend van deze structuur, interpoleren we tussen tijdvectoren om nieuwe modellen te creëren die beter presteren op tussenliggende en toekomstige tijdsperioden, zonder enige aanvullende training. We demonstreren de consistentie van onze bevindingen over verschillende taken, domeinen, modelgroottes en tijdschalen. Onze resultaten suggereren dat tijd gecodeerd is in de gewichtsruimte van gefinetunde modellen.
English
We present time vectors, a simple tool to customize language models to new time periods. Time vectors are created by finetuning a language model on data from a single time (e.g., a year or month), and then subtracting the weights of the original pretrained model. This vector specifies a direction in weight space that, as our experiments show, improves performance on text from that time period. Time vectors specialized to adjacent time periods appear to be positioned closer together in a manifold. Using this structure, we interpolate between time vectors to induce new models that perform better on intervening and future time periods, without any additional training. We demonstrate the consistency of our findings across different tasks, domains, model sizes, and time scales. Our results suggest that time is encoded in the weight space of finetuned models.
PDF201December 15, 2024