ChatPaper.aiChatPaper

Die Zeit ist in den Gewichten feinabgestimmter Sprachmodelle kodiert.

Time is Encoded in the Weights of Finetuned Language Models

December 20, 2023
Autoren: Kai Nylund, Suchin Gururangan, Noah A. Smith
cs.AI

Zusammenfassung

Wir stellen Zeitvektoren vor, ein einfaches Werkzeug, um Sprachmodelle an neue Zeiträume anzupassen. Zeitvektoren werden erstellt, indem ein Sprachmodell auf Daten aus einem einzelnen Zeitraum (z. B. ein Jahr oder ein Monat) feinabgestimmt wird und anschließend die Gewichte des ursprünglich vortrainierten Modells subtrahiert werden. Dieser Vektor gibt eine Richtung im Gewichtsraum an, die, wie unsere Experimente zeigen, die Leistung bei Texten aus diesem Zeitraum verbessert. Zeitvektoren, die auf benachbarte Zeiträume spezialisiert sind, scheinen in einer Mannigfaltigkeit näher beieinander positioniert zu sein. Unter Nutzung dieser Struktur interpolieren wir zwischen Zeitvektoren, um neue Modelle zu erzeugen, die ohne zusätzliches Training besser auf dazwischenliegende und zukünftige Zeiträume abschneiden. Wir demonstrieren die Konsistenz unserer Ergebnisse über verschiedene Aufgaben, Domänen, Modellgrößen und Zeitskalen hinweg. Unsere Ergebnisse deuten darauf hin, dass Zeit im Gewichtsraum feinabgestimmter Modelle kodiert ist.
English
We present time vectors, a simple tool to customize language models to new time periods. Time vectors are created by finetuning a language model on data from a single time (e.g., a year or month), and then subtracting the weights of the original pretrained model. This vector specifies a direction in weight space that, as our experiments show, improves performance on text from that time period. Time vectors specialized to adjacent time periods appear to be positioned closer together in a manifold. Using this structure, we interpolate between time vectors to induce new models that perform better on intervening and future time periods, without any additional training. We demonstrate the consistency of our findings across different tasks, domains, model sizes, and time scales. Our results suggest that time is encoded in the weight space of finetuned models.
PDF211December 15, 2024