PROMPTEVALS: Un Dataset di Asserzioni e Guardrail per Pipeline Personalizzate di Modelli Linguistici di Grande Scala
PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines
April 20, 2025
Autori: Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) vengono sempre più implementati in pipeline di elaborazione dati specializzate in vari ambiti, come finanza, marketing e e-commerce. Tuttavia, quando vengono eseguiti in produzione su molti input, spesso non seguono le istruzioni o non soddisfano le aspettative degli sviluppatori. Per migliorare l'affidabilità in queste applicazioni, è essenziale creare asserzioni o barriere di sicurezza per gli output degli LLM da eseguire insieme alle pipeline. Tuttavia, determinare il giusto insieme di asserzioni che catturino i requisiti degli sviluppatori per un determinato compito è una sfida. In questo articolo, presentiamo PROMPTEVALS, un dataset di 2087 prompt per pipeline LLM con 12623 criteri di asserzione corrispondenti, raccolti da sviluppatori che utilizzano i nostri strumenti open-source per pipeline LLM. Questo dataset è 5 volte più grande delle raccolte precedenti. Utilizzando una suddivisione di test di PROMPTEVALS come benchmark, abbiamo valutato modelli closed-source e open-source nella generazione di asserzioni rilevanti. In particolare, i nostri modelli Mistral e Llama 3 ottimizzati superano GPT-4o in media del 20,93%, offrendo sia una latenza ridotta che prestazioni migliorate. Crediamo che il nostro dataset possa stimolare ulteriori ricerche sull'affidabilità, allineamento e ingegneria dei prompt degli LLM.
English
Large language models (LLMs) are increasingly deployed in specialized
production data processing pipelines across diverse domains -- such as finance,
marketing, and e-commerce. However, when running them in production across many
inputs, they often fail to follow instructions or meet developer expectations.
To improve reliability in these applications, creating assertions or guardrails
for LLM outputs to run alongside the pipelines is essential. Yet, determining
the right set of assertions that capture developer requirements for a task is
challenging. In this paper, we introduce PROMPTEVALS, a dataset of 2087 LLM
pipeline prompts with 12623 corresponding assertion criteria, sourced from
developers using our open-source LLM pipeline tools. This dataset is 5x larger
than previous collections. Using a hold-out test split of PROMPTEVALS as a
benchmark, we evaluated closed- and open-source models in generating relevant
assertions. Notably, our fine-tuned Mistral and Llama 3 models outperform
GPT-4o by 20.93% on average, offering both reduced latency and improved
performance. We believe our dataset can spur further research in LLM
reliability, alignment, and prompt engineering.Summary
AI-Generated Summary