ChatPaper.aiChatPaper

Время закодировано в весах дообученных языковых моделей.

Time is Encoded in the Weights of Finetuned Language Models

December 20, 2023
Авторы: Kai Nylund, Suchin Gururangan, Noah A. Smith
cs.AI

Аннотация

Мы представляем временные векторы — простой инструмент для адаптации языковых моделей к новым временным периодам. Временные векторы создаются путем тонкой настройки языковой модели на данных из одного временного отрезка (например, года или месяца) с последующим вычитанием весов исходной предобученной модели. Этот вектор задает направление в пространстве весов, которое, как показывают наши эксперименты, улучшает производительность на текстах из этого временного периода. Временные векторы, специализированные для смежных временных периодов, оказываются расположенными ближе друг к другу на многообразии. Используя эту структуру, мы интерполируем между временными векторами, чтобы создавать новые модели, которые лучше справляются с промежуточными и будущими временными периодами без дополнительного обучения. Мы демонстрируем согласованность наших результатов для различных задач, областей, размеров моделей и временных масштабов. Наши результаты позволяют предположить, что время кодируется в пространстве весов тонко настроенных моделей.
English
We present time vectors, a simple tool to customize language models to new time periods. Time vectors are created by finetuning a language model on data from a single time (e.g., a year or month), and then subtracting the weights of the original pretrained model. This vector specifies a direction in weight space that, as our experiments show, improves performance on text from that time period. Time vectors specialized to adjacent time periods appear to be positioned closer together in a manifold. Using this structure, we interpolate between time vectors to induce new models that perform better on intervening and future time periods, without any additional training. We demonstrate the consistency of our findings across different tasks, domains, model sizes, and time scales. Our results suggest that time is encoded in the weight space of finetuned models.
PDF211December 15, 2024