ChatPaper.aiChatPaper

Il tempo è codificato nei pesi dei modelli linguistici affinati.

Time is Encoded in the Weights of Finetuned Language Models

December 20, 2023
Autori: Kai Nylund, Suchin Gururangan, Noah A. Smith
cs.AI

Abstract

Presentiamo i vettori temporali, uno strumento semplice per personalizzare i modelli linguistici a nuovi periodi temporali. I vettori temporali vengono creati ottimizzando un modello linguistico su dati provenienti da un singolo periodo (ad esempio, un anno o un mese), per poi sottrarre i pesi del modello pre-addestrato originale. Questo vettore specifica una direzione nello spazio dei pesi che, come dimostrano i nostri esperimenti, migliora le prestazioni su testi provenienti da quel periodo temporale. I vettori temporali specializzati per periodi adiacenti sembrano essere posizionati più vicini tra loro in una varietà. Utilizzando questa struttura, interpoliamo tra i vettori temporali per indurre nuovi modelli che performano meglio su periodi intermedi e futuri, senza alcun addestramento aggiuntivo. Dimostriamo la coerenza dei nostri risultati attraverso diversi compiti, domini, dimensioni dei modelli e scale temporali. I nostri risultati suggeriscono che il tempo è codificato nello spazio dei pesi dei modelli ottimizzati.
English
We present time vectors, a simple tool to customize language models to new time periods. Time vectors are created by finetuning a language model on data from a single time (e.g., a year or month), and then subtracting the weights of the original pretrained model. This vector specifies a direction in weight space that, as our experiments show, improves performance on text from that time period. Time vectors specialized to adjacent time periods appear to be positioned closer together in a manifold. Using this structure, we interpolate between time vectors to induce new models that perform better on intervening and future time periods, without any additional training. We demonstrate the consistency of our findings across different tasks, domains, model sizes, and time scales. Our results suggest that time is encoded in the weight space of finetuned models.
PDF201December 15, 2024