LlamaDuo: Canalización LLMOps para una migración fluida de LLMs de servicio a LLMs locales de pequeña escala.

Resumen

La amplia adopción de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) propietarios basados en la nube ha introducido desafíos significativos, incluyendo dependencias operativas, preocupaciones de privacidad y la necesidad de conectividad continua a internet. En este trabajo, presentamos un flujo de trabajo de LLMOps, "LlamaDuo", para la migración sin problemas de conocimientos y habilidades de LLMs orientados al servicio a modelos más pequeños y manejables localmente. Este flujo de trabajo es crucial para garantizar la continuidad del servicio en presencia de fallas operativas, políticas estrictas de privacidad o requisitos sin conexión. Nuestro LlamaDuo implica el ajuste fino de un modelo de lenguaje pequeño contra el LLM de servicio utilizando un conjunto de datos sintético generado por este último. Si el rendimiento del modelo ajustado finamente no cumple con las expectativas, se mejora mediante un ajuste fino adicional con datos similares adicionales creados por el LLM de servicio. Este proceso iterativo garantiza que el modelo más pequeño eventualmente pueda igualar o incluso superar las capacidades del LLM de servicio en tareas específicas posteriores, ofreciendo una solución práctica y escalable para gestionar implementaciones de IA en entornos restringidos. Se realizan experimentos extensos con LLMs de vanguardia para demostrar la efectividad, adaptabilidad y asequibilidad de LlamaDuo en diversas tareas posteriores. Nuestra implementación del flujo de trabajo está disponible en https://github.com/deep-diver/llamaduo.

English

The widespread adoption of cloud-based proprietary large language models (LLMs) has introduced significant challenges, including operational dependencies, privacy concerns, and the necessity of continuous internet connectivity. In this work, we introduce an LLMOps pipeline, "LlamaDuo", for the seamless migration of knowledge and abilities from service-oriented LLMs to smaller, locally manageable models. This pipeline is crucial for ensuring service continuity in the presence of operational failures, strict privacy policies, or offline requirements. Our LlamaDuo involves fine-tuning a small language model against the service LLM using a synthetic dataset generated by the latter. If the performance of the fine-tuned model falls short of expectations, it is enhanced by further fine-tuning with additional similar data created by the service LLM. This iterative process guarantees that the smaller model can eventually match or even surpass the service LLM's capabilities in specific downstream tasks, offering a practical and scalable solution for managing AI deployments in constrained environments. Extensive experiments with leading edge LLMs are conducted to demonstrate the effectiveness, adaptability, and affordability of LlamaDuo across various downstream tasks. Our pipeline implementation is available at https://github.com/deep-diver/llamaduo.

LlamaDuo: Canalización LLMOps para una migración fluida de LLMs de servicio a LLMs locales de pequeña escala.

LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs

Resumen

Support