LlamaDuo: Pipeline LLMOps para Migração Contínua de Serviços LLMs para LLMs Locais em Pequena Escala
LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs
August 24, 2024
Autores: Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jing Tang, Sunghun Kim
cs.AI
Resumo
A ampla adoção de modelos de linguagem grandes proprietários baseados em nuvem (LLMs) introduziu desafios significativos, incluindo dependências operacionais, preocupações com privacidade e a necessidade de conectividade contínua com a internet. Neste trabalho, apresentamos um pipeline LLMOps, "LlamaDuo", para a migração contínua de conhecimento e habilidades de LLMs orientados a serviço para modelos menores e localmente gerenciáveis. Esse pipeline é crucial para garantir a continuidade do serviço na presença de falhas operacionais, políticas rígidas de privacidade ou requisitos offline. Nosso LlamaDuo envolve o ajuste fino de um pequeno modelo de linguagem em relação ao LLM de serviço usando um conjunto de dados sintéticos gerado por este último. Se o desempenho do modelo ajustado finamente não atender às expectativas, ele é aprimorado por meio de ajustes finos adicionais com dados semelhantes criados pelo LLM de serviço. Esse processo iterativo garante que o modelo menor possa eventualmente igualar ou até superar as capacidades do LLM de serviço em tarefas específicas, oferecendo uma solução prática e escalável para gerenciar implantações de IA em ambientes restritos. Experimentos extensos com LLMs de ponta são conduzidos para demonstrar a eficácia, adaptabilidade e acessibilidade do LlamaDuo em várias tarefas downstream. A implementação de nosso pipeline está disponível em https://github.com/deep-diver/llamaduo.
English
The widespread adoption of cloud-based proprietary large language models
(LLMs) has introduced significant challenges, including operational
dependencies, privacy concerns, and the necessity of continuous internet
connectivity. In this work, we introduce an LLMOps pipeline, "LlamaDuo", for
the seamless migration of knowledge and abilities from service-oriented LLMs to
smaller, locally manageable models. This pipeline is crucial for ensuring
service continuity in the presence of operational failures, strict privacy
policies, or offline requirements. Our LlamaDuo involves fine-tuning a small
language model against the service LLM using a synthetic dataset generated by
the latter. If the performance of the fine-tuned model falls short of
expectations, it is enhanced by further fine-tuning with additional similar
data created by the service LLM. This iterative process guarantees that the
smaller model can eventually match or even surpass the service LLM's
capabilities in specific downstream tasks, offering a practical and scalable
solution for managing AI deployments in constrained environments. Extensive
experiments with leading edge LLMs are conducted to demonstrate the
effectiveness, adaptability, and affordability of LlamaDuo across various
downstream tasks. Our pipeline implementation is available at
https://github.com/deep-diver/llamaduo.Summary
AI-Generated Summary