PROMPTEVALS: Un Dataset di Asserzioni e Guardrail per Pipeline Personalizzate di Modelli Linguistici di Grande Scala

Abstract

I modelli linguistici di grandi dimensioni (LLM) vengono sempre più implementati in pipeline di elaborazione dati specializzate in vari ambiti, come finanza, marketing e e-commerce. Tuttavia, quando vengono eseguiti in produzione su molti input, spesso non seguono le istruzioni o non soddisfano le aspettative degli sviluppatori. Per migliorare l'affidabilità in queste applicazioni, è essenziale creare asserzioni o barriere di sicurezza per gli output degli LLM da eseguire insieme alle pipeline. Tuttavia, determinare il giusto insieme di asserzioni che catturino i requisiti degli sviluppatori per un determinato compito è una sfida. In questo articolo, presentiamo PROMPTEVALS, un dataset di 2087 prompt per pipeline LLM con 12623 criteri di asserzione corrispondenti, raccolti da sviluppatori che utilizzano i nostri strumenti open-source per pipeline LLM. Questo dataset è 5 volte più grande delle raccolte precedenti. Utilizzando una suddivisione di test di PROMPTEVALS come benchmark, abbiamo valutato modelli closed-source e open-source nella generazione di asserzioni rilevanti. In particolare, i nostri modelli Mistral e Llama 3 ottimizzati superano GPT-4o in media del 20,93%, offrendo sia una latenza ridotta che prestazioni migliorate. Crediamo che il nostro dataset possa stimolare ulteriori ricerche sull'affidabilità, allineamento e ingegneria dei prompt degli LLM.

English

Large language models (LLMs) are increasingly deployed in specialized production data processing pipelines across diverse domains -- such as finance, marketing, and e-commerce. However, when running them in production across many inputs, they often fail to follow instructions or meet developer expectations. To improve reliability in these applications, creating assertions or guardrails for LLM outputs to run alongside the pipelines is essential. Yet, determining the right set of assertions that capture developer requirements for a task is challenging. In this paper, we introduce PROMPTEVALS, a dataset of 2087 LLM pipeline prompts with 12623 corresponding assertion criteria, sourced from developers using our open-source LLM pipeline tools. This dataset is 5x larger than previous collections. Using a hold-out test split of PROMPTEVALS as a benchmark, we evaluated closed- and open-source models in generating relevant assertions. Notably, our fine-tuned Mistral and Llama 3 models outperform GPT-4o by 20.93% on average, offering both reduced latency and improved performance. We believe our dataset can spur further research in LLM reliability, alignment, and prompt engineering.

PROMPTEVALS: Un Dataset di Asserzioni e Guardrail per Pipeline Personalizzate di Modelli Linguistici di Grande Scala

PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines

Abstract

Support