MUSCLE: Стратегия обновления модели для совместного развития LLM
MUSCLE: A Model Update Strategy for Compatible LLM Evolution
July 12, 2024
Авторы: Jessica Echterhoff, Fartash Faghri, Raviteja Vemulapalli, Ting-Yao Hu, Chun-Liang Li, Oncel Tuzel, Hadi Pouransari
cs.AI
Аннотация
Большие языковые модели (LLM) часто обновляются из-за изменений данных или архитектуры для улучшения их производительности. При обновлении моделей разработчики часто сосредотачиваются на увеличении общих метрик производительности с меньшим вниманием к совместимости с предыдущими версиями моделей. Однако пользователи часто создают модель функциональности и возможностей конкретной модели машинного обучения, с которой они взаимодействуют. Они должны адаптировать свою модель мышления с каждым обновлением -- это утомительная задача, которая может привести к недовольству пользователей. На практике адаптеры доочередных задач с тонкой настройкой полагаются на предварительно обученные базовые модели LLM. Когда эти базовые модели обновляются, эти модели доочередных задач, с которыми взаимодействуют пользователи, сталкиваются с регрессией экземпляров или отрицательными изменениями -- ранее правильно предсказанные экземпляры теперь предсказываются неверно. Это происходит даже в том случае, если процедуры обучения доочередных задач остаются идентичными. Наша работа направлена на обеспечение бесшовных обновлений моделей для пользователя двумя способами. Во-первых, мы предоставляем метрики оценки для понятия совместимости с предыдущими версиями моделей, специально для генеративных задач, но также применимых для дискриминативных задач. Мы наблюдаем регрессию и несоответствия между различными версиями моделей на разнообразном наборе задач и обновлений моделей. Во-вторых, мы предлагаем стратегию обучения для минимизации количества несоответствий при обновлении моделей, включая обучение модели совместимости, которая может улучшить языковые модели с тонкой настройкой задач. Мы уменьшаем отрицательные изменения -- случаи, когда предыдущая версия модели была правильной, а новая неверной -- на до 40% от Llama 1 к Llama 2.
English
Large Language Models (LLMs) are frequently updated due to data or
architecture changes to improve their performance. When updating models,
developers often focus on increasing overall performance metrics with less
emphasis on being compatible with previous model versions. However, users often
build a mental model of the functionality and capabilities of a particular
machine learning model they are interacting with. They have to adapt their
mental model with every update -- a draining task that can lead to user
dissatisfaction. In practice, fine-tuned downstream task adapters rely on
pretrained LLM base models. When these base models are updated, these
user-facing downstream task models experience instance regression or negative
flips -- previously correct instances are now predicted incorrectly. This
happens even when the downstream task training procedures remain identical. Our
work aims to provide seamless model updates to a user in two ways. First, we
provide evaluation metrics for a notion of compatibility to prior model
versions, specifically for generative tasks but also applicable for
discriminative tasks. We observe regression and inconsistencies between
different model versions on a diverse set of tasks and model updates. Second,
we propose a training strategy to minimize the number of inconsistencies in
model updates, involving training of a compatibility model that can enhance
task fine-tuned language models. We reduce negative flips -- instances where a
prior model version was correct, but a new model incorrect -- by up to 40% from
Llama 1 to Llama 2.Summary
AI-Generated Summary