LlamaDuo: LLMOps-Pipeline für nahtlose Migration von Service-LLMs zu kleinskaligen lokalen LLMs
LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs
August 24, 2024
Autoren: Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jing Tang, Sunghun Kim
cs.AI
Zusammenfassung
Die weit verbreitete Verwendung von Cloud-basierten proprietären großen Sprachmodellen (LLMs) hat bedeutende Herausforderungen eingeführt, darunter operationale Abhängigkeiten, Datenschutzbedenken und die Notwendigkeit einer kontinuierlichen Internetverbindung. In dieser Arbeit stellen wir eine LLMOps-Pipeline namens "LlamaDuo" vor, die die nahtlose Migration von Wissen und Fähigkeiten von serviceorientierten LLMs zu kleineren, lokal verwaltbaren Modellen ermöglicht. Diese Pipeline ist entscheidend, um den Servicebetrieb bei operationellen Ausfällen, strengen Datenschutzrichtlinien oder Offline-Anforderungen aufrechtzuerhalten. Unser LlamaDuo umfasst das Feinabstimmen eines kleinen Sprachmodells gegen das Service-LLM unter Verwendung eines synthetischen Datensatzes, der vom Letzteren generiert wurde. Wenn die Leistung des feinabgestimmten Modells den Erwartungen nicht entspricht, wird es durch weitere Feinabstimmung mit zusätzlichen ähnlichen Daten, die vom Service-LLM erstellt wurden, verbessert. Dieser iterative Prozess garantiert, dass das kleinere Modell letztendlich die Fähigkeiten des Service-LLMs in spezifischen nachgelagerten Aufgaben erreichen oder sogar übertreffen kann, und bietet somit eine praktische und skalierbare Lösung für das Management von KI-Bereitstellungen in eingeschränkten Umgebungen. Um die Wirksamkeit, Anpassungsfähigkeit und Erschwinglichkeit von LlamaDuo in verschiedenen nachgelagerten Aufgaben zu demonstrieren, werden umfangreiche Experimente mit führenden LLMs durchgeführt. Die Implementierung unserer Pipeline ist unter https://github.com/deep-diver/llamaduo verfügbar.
English
The widespread adoption of cloud-based proprietary large language models
(LLMs) has introduced significant challenges, including operational
dependencies, privacy concerns, and the necessity of continuous internet
connectivity. In this work, we introduce an LLMOps pipeline, "LlamaDuo", for
the seamless migration of knowledge and abilities from service-oriented LLMs to
smaller, locally manageable models. This pipeline is crucial for ensuring
service continuity in the presence of operational failures, strict privacy
policies, or offline requirements. Our LlamaDuo involves fine-tuning a small
language model against the service LLM using a synthetic dataset generated by
the latter. If the performance of the fine-tuned model falls short of
expectations, it is enhanced by further fine-tuning with additional similar
data created by the service LLM. This iterative process guarantees that the
smaller model can eventually match or even surpass the service LLM's
capabilities in specific downstream tasks, offering a practical and scalable
solution for managing AI deployments in constrained environments. Extensive
experiments with leading edge LLMs are conducted to demonstrate the
effectiveness, adaptability, and affordability of LlamaDuo across various
downstream tasks. Our pipeline implementation is available at
https://github.com/deep-diver/llamaduo.Summary
AI-Generated Summary