MUSCLE: Eine Modellaktualisierungsstrategie für die kompatible Evolution von LLM
MUSCLE: A Model Update Strategy for Compatible LLM Evolution
July 12, 2024
Autoren: Jessica Echterhoff, Fartash Faghri, Raviteja Vemulapalli, Ting-Yao Hu, Chun-Liang Li, Oncel Tuzel, Hadi Pouransari
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden häufig aufgrund von Daten- oder Architekturänderungen aktualisiert, um ihre Leistung zu verbessern. Bei der Aktualisierung von Modellen konzentrieren sich Entwickler oft darauf, die Gesamtleistungsmetriken zu verbessern, wobei weniger Wert auf die Kompatibilität mit früheren Modellversionen gelegt wird. Benutzer bilden jedoch oft ein mentales Modell der Funktionalität und Fähigkeiten eines bestimmten maschinellen Lernmodells, mit dem sie interagieren. Sie müssen ihr mentales Modell bei jeder Aktualisierung anpassen - eine anstrengende Aufgabe, die zu Benutzerunzufriedenheit führen kann. In der Praxis verlassen sich feinabgestimmte Adapter für nachgelagerte Aufgaben auf vorab trainierte LLM-Basismodelle. Wenn diese Basismodelle aktualisiert werden, erfahren diese benutzerorientierten nachgelagerten Aufgabenmodelle Instanzregressionen oder negative Umkehrungen - zuvor korrekte Instanzen werden nun falsch vorhergesagt. Dies geschieht selbst dann, wenn die Trainingsverfahren für nachgelagerte Aufgaben identisch bleiben. Unsere Arbeit zielt darauf ab, einem Benutzer auf zwei Arten nahtlose Modellaktualisierungen bereitzustellen. Erstens bieten wir Bewertungsmetriken für ein Konzept der Kompatibilität mit früheren Modellversionen an, speziell für generative Aufgaben, aber auch für diskriminative Aufgaben anwendbar. Wir beobachten Regressionen und Inkonsistenzen zwischen verschiedenen Modellversionen bei einer vielfältigen Aufgabensammlung und Modellaktualisierungen. Zweitens schlagen wir eine Schulungsstrategie vor, um die Anzahl von Inkonsistenzen bei Modellaktualisierungen zu minimieren, indem ein Kompatibilitätsmodell trainiert wird, das die Feinabstimmung von Sprachmodellen für Aufgaben verbessern kann. Wir reduzieren negative Umkehrungen - Instanzen, bei denen eine frühere Modellversion korrekt war, aber ein neues Modell inkorrekt ist - um bis zu 40% von Llama 1 zu Llama 2.
English
Large Language Models (LLMs) are frequently updated due to data or
architecture changes to improve their performance. When updating models,
developers often focus on increasing overall performance metrics with less
emphasis on being compatible with previous model versions. However, users often
build a mental model of the functionality and capabilities of a particular
machine learning model they are interacting with. They have to adapt their
mental model with every update -- a draining task that can lead to user
dissatisfaction. In practice, fine-tuned downstream task adapters rely on
pretrained LLM base models. When these base models are updated, these
user-facing downstream task models experience instance regression or negative
flips -- previously correct instances are now predicted incorrectly. This
happens even when the downstream task training procedures remain identical. Our
work aims to provide seamless model updates to a user in two ways. First, we
provide evaluation metrics for a notion of compatibility to prior model
versions, specifically for generative tasks but also applicable for
discriminative tasks. We observe regression and inconsistencies between
different model versions on a diverse set of tasks and model updates. Second,
we propose a training strategy to minimize the number of inconsistencies in
model updates, involving training of a compatibility model that can enhance
task fine-tuned language models. We reduce negative flips -- instances where a
prior model version was correct, but a new model incorrect -- by up to 40% from
Llama 1 to Llama 2.Summary
AI-Generated Summary