LlamaDuo: LLMOps-Pipeline für nahtlose Migration von Service-LLMs zu kleinskaligen lokalen LLMs

papers.abstract

Die weit verbreitete Verwendung von Cloud-basierten proprietären großen Sprachmodellen (LLMs) hat bedeutende Herausforderungen eingeführt, darunter operationale Abhängigkeiten, Datenschutzbedenken und die Notwendigkeit einer kontinuierlichen Internetverbindung. In dieser Arbeit stellen wir eine LLMOps-Pipeline namens "LlamaDuo" vor, die die nahtlose Migration von Wissen und Fähigkeiten von serviceorientierten LLMs zu kleineren, lokal verwaltbaren Modellen ermöglicht. Diese Pipeline ist entscheidend, um den Servicebetrieb bei operationellen Ausfällen, strengen Datenschutzrichtlinien oder Offline-Anforderungen aufrechtzuerhalten. Unser LlamaDuo umfasst das Feinabstimmen eines kleinen Sprachmodells gegen das Service-LLM unter Verwendung eines synthetischen Datensatzes, der vom Letzteren generiert wurde. Wenn die Leistung des feinabgestimmten Modells den Erwartungen nicht entspricht, wird es durch weitere Feinabstimmung mit zusätzlichen ähnlichen Daten, die vom Service-LLM erstellt wurden, verbessert. Dieser iterative Prozess garantiert, dass das kleinere Modell letztendlich die Fähigkeiten des Service-LLMs in spezifischen nachgelagerten Aufgaben erreichen oder sogar übertreffen kann, und bietet somit eine praktische und skalierbare Lösung für das Management von KI-Bereitstellungen in eingeschränkten Umgebungen. Um die Wirksamkeit, Anpassungsfähigkeit und Erschwinglichkeit von LlamaDuo in verschiedenen nachgelagerten Aufgaben zu demonstrieren, werden umfangreiche Experimente mit führenden LLMs durchgeführt. Die Implementierung unserer Pipeline ist unter https://github.com/deep-diver/llamaduo verfügbar.

English

The widespread adoption of cloud-based proprietary large language models (LLMs) has introduced significant challenges, including operational dependencies, privacy concerns, and the necessity of continuous internet connectivity. In this work, we introduce an LLMOps pipeline, "LlamaDuo", for the seamless migration of knowledge and abilities from service-oriented LLMs to smaller, locally manageable models. This pipeline is crucial for ensuring service continuity in the presence of operational failures, strict privacy policies, or offline requirements. Our LlamaDuo involves fine-tuning a small language model against the service LLM using a synthetic dataset generated by the latter. If the performance of the fine-tuned model falls short of expectations, it is enhanced by further fine-tuning with additional similar data created by the service LLM. This iterative process guarantees that the smaller model can eventually match or even surpass the service LLM's capabilities in specific downstream tasks, offering a practical and scalable solution for managing AI deployments in constrained environments. Extensive experiments with leading edge LLMs are conducted to demonstrate the effectiveness, adaptability, and affordability of LlamaDuo across various downstream tasks. Our pipeline implementation is available at https://github.com/deep-diver/llamaduo.

LlamaDuo: LLMOps-Pipeline für nahtlose Migration von Service-LLMs zu kleinskaligen lokalen LLMs

LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs

papers.abstract

Support