MUSCLE: Una Estrategia de Actualización de Modelo para la Evolución Compatible de LLM
MUSCLE: A Model Update Strategy for Compatible LLM Evolution
July 12, 2024
Autores: Jessica Echterhoff, Fartash Faghri, Raviteja Vemulapalli, Ting-Yao Hu, Chun-Liang Li, Oncel Tuzel, Hadi Pouransari
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) se actualizan con frecuencia debido a cambios en los datos o la arquitectura para mejorar su rendimiento. Al actualizar los modelos, los desarrolladores suelen centrarse en aumentar las métricas de rendimiento general con menos énfasis en ser compatibles con versiones anteriores del modelo. Sin embargo, los usuarios suelen construir un modelo mental de la funcionalidad y capacidades de un modelo de aprendizaje automático específico con el que interactúan. Tienen que adaptar su modelo mental con cada actualización, una tarea agotadora que puede llevar a la insatisfacción del usuario. En la práctica, los adaptadores de tareas secundarias ajustadas dependen de los modelos base LLM preentrenados. Cuando se actualizan estos modelos base, los modelos de tareas secundarias orientados al usuario experimentan regresión de instancias o cambios negativos: las instancias previamente correctas ahora se predicen incorrectamente. Esto ocurre incluso cuando los procedimientos de entrenamiento de tareas secundarias permanecen idénticos. Nuestro trabajo tiene como objetivo proporcionar actualizaciones de modelos fluidas a un usuario de dos maneras. Primero, proporcionamos métricas de evaluación para una noción de compatibilidad con versiones anteriores del modelo, específicamente para tareas generativas pero también aplicables a tareas discriminativas. Observamos regresión e inconsistencias entre diferentes versiones de modelos en un conjunto diverso de tareas y actualizaciones de modelos. Segundo, proponemos una estrategia de entrenamiento para minimizar el número de inconsistencias en las actualizaciones de modelos, que implica el entrenamiento de un modelo de compatibilidad que puede mejorar los modelos de lenguaje ajustados a tareas. Reducimos los cambios negativos, donde una versión anterior del modelo era correcta pero la nueva es incorrecta, hasta en un 40% de Llama 1 a Llama 2.
English
Large Language Models (LLMs) are frequently updated due to data or
architecture changes to improve their performance. When updating models,
developers often focus on increasing overall performance metrics with less
emphasis on being compatible with previous model versions. However, users often
build a mental model of the functionality and capabilities of a particular
machine learning model they are interacting with. They have to adapt their
mental model with every update -- a draining task that can lead to user
dissatisfaction. In practice, fine-tuned downstream task adapters rely on
pretrained LLM base models. When these base models are updated, these
user-facing downstream task models experience instance regression or negative
flips -- previously correct instances are now predicted incorrectly. This
happens even when the downstream task training procedures remain identical. Our
work aims to provide seamless model updates to a user in two ways. First, we
provide evaluation metrics for a notion of compatibility to prior model
versions, specifically for generative tasks but also applicable for
discriminative tasks. We observe regression and inconsistencies between
different model versions on a diverse set of tasks and model updates. Second,
we propose a training strategy to minimize the number of inconsistencies in
model updates, involving training of a compatibility model that can enhance
task fine-tuned language models. We reduce negative flips -- instances where a
prior model version was correct, but a new model incorrect -- by up to 40% from
Llama 1 to Llama 2.Summary
AI-Generated Summary