LlamaDuo: Canalización LLMOps para una migración fluida de LLMs de servicio a LLMs locales de pequeña escala.
LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs
August 24, 2024
Autores: Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jing Tang, Sunghun Kim
cs.AI
Resumen
La amplia adopción de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) propietarios basados en la nube ha introducido desafíos significativos, incluyendo dependencias operativas, preocupaciones de privacidad y la necesidad de conectividad continua a internet. En este trabajo, presentamos un flujo de trabajo de LLMOps, "LlamaDuo", para la migración sin problemas de conocimientos y habilidades de LLMs orientados al servicio a modelos más pequeños y manejables localmente. Este flujo de trabajo es crucial para garantizar la continuidad del servicio en presencia de fallas operativas, políticas estrictas de privacidad o requisitos sin conexión. Nuestro LlamaDuo implica el ajuste fino de un modelo de lenguaje pequeño contra el LLM de servicio utilizando un conjunto de datos sintético generado por este último. Si el rendimiento del modelo ajustado finamente no cumple con las expectativas, se mejora mediante un ajuste fino adicional con datos similares adicionales creados por el LLM de servicio. Este proceso iterativo garantiza que el modelo más pequeño eventualmente pueda igualar o incluso superar las capacidades del LLM de servicio en tareas específicas posteriores, ofreciendo una solución práctica y escalable para gestionar implementaciones de IA en entornos restringidos. Se realizan experimentos extensos con LLMs de vanguardia para demostrar la efectividad, adaptabilidad y asequibilidad de LlamaDuo en diversas tareas posteriores. Nuestra implementación del flujo de trabajo está disponible en https://github.com/deep-diver/llamaduo.
English
The widespread adoption of cloud-based proprietary large language models
(LLMs) has introduced significant challenges, including operational
dependencies, privacy concerns, and the necessity of continuous internet
connectivity. In this work, we introduce an LLMOps pipeline, "LlamaDuo", for
the seamless migration of knowledge and abilities from service-oriented LLMs to
smaller, locally manageable models. This pipeline is crucial for ensuring
service continuity in the presence of operational failures, strict privacy
policies, or offline requirements. Our LlamaDuo involves fine-tuning a small
language model against the service LLM using a synthetic dataset generated by
the latter. If the performance of the fine-tuned model falls short of
expectations, it is enhanced by further fine-tuning with additional similar
data created by the service LLM. This iterative process guarantees that the
smaller model can eventually match or even surpass the service LLM's
capabilities in specific downstream tasks, offering a practical and scalable
solution for managing AI deployments in constrained environments. Extensive
experiments with leading edge LLMs are conducted to demonstrate the
effectiveness, adaptability, and affordability of LlamaDuo across various
downstream tasks. Our pipeline implementation is available at
https://github.com/deep-diver/llamaduo.Summary
AI-Generated Summary