Parrot: Servizio Efficiente di Applicazioni Basate su LLM con Variabili Semantiche

Abstract

L'ascesa dei grandi modelli linguistici (LLM) ha reso possibili applicazioni basate su LLM (note anche come agenti AI o co-piloti), un nuovo paradigma software che combina la potenza degli LLM con il software convenzionale. Diverse applicazioni LLM provenienti da diversi contesti possono progettare flussi di lavoro complessi utilizzando più richieste LLM per completare un'attività. Tuttavia, devono utilizzare l'API semplificata a livello di richiesta fornita dai servizi pubblici LLM attuali, perdendo informazioni essenziali a livello di applicazione. I servizi pubblici LLM sono costretti a ottimizzare ciecamente le singole richieste LLM, portando a prestazioni end-to-end subottimali per le applicazioni LLM. Questo articolo introduce Parrot, un sistema di servizi LLM che si concentra sull'esperienza end-to-end delle applicazioni basate su LLM. Parrot propone la Variabile Semantica, un'astrazione unificata per esporre la conoscenza a livello di applicazione ai servizi pubblici LLM. Una Variabile Semantica annota una variabile di input/output nel prompt di una richiesta e crea la pipeline di dati quando collega più richieste LLM, fornendo un modo naturale per programmare applicazioni LLM. Esporre le Variabili Semantiche al servizio pubblico LLM consente di eseguire analisi convenzionali del flusso di dati per scoprire la correlazione tra più richieste LLM. Questa correlazione apre un nuovo spazio di ottimizzazione per le prestazioni end-to-end delle applicazioni basate su LLM. Valutazioni estensive dimostrano che Parrot può ottenere miglioramenti fino a un ordine di grandezza per casi d'uso popolari e pratici delle applicazioni LLM.

English

The rise of large language models (LLMs) has enabled LLM-based applications (a.k.a. AI agents or co-pilots), a new software paradigm that combines the strength of LLM and conventional software. Diverse LLM applications from different tenants could design complex workflows using multiple LLM requests to accomplish one task. However, they have to use the over-simplified request-level API provided by today's public LLM services, losing essential application-level information. Public LLM services have to blindly optimize individual LLM requests, leading to sub-optimal end-to-end performance of LLM applications. This paper introduces Parrot, an LLM service system that focuses on the end-to-end experience of LLM-based applications. Parrot proposes Semantic Variable, a unified abstraction to expose application-level knowledge to public LLM services. A Semantic Variable annotates an input/output variable in the prompt of a request, and creates the data pipeline when connecting multiple LLM requests, providing a natural way to program LLM applications. Exposing Semantic Variables to the public LLM service allows it to perform conventional data flow analysis to uncover the correlation across multiple LLM requests. This correlation opens a brand-new optimization space for the end-to-end performance of LLM-based applications. Extensive evaluations demonstrate that Parrot can achieve up to an order-of-magnitude improvement for popular and practical use cases of LLM applications.

Parrot: Servizio Efficiente di Applicazioni Basate su LLM con Variabili Semantiche

Parrot: Efficient Serving of LLM-based Applications with Semantic Variable

Abstract

Support