PROMPTEVALS: Een dataset van beweringen en veiligheidsmaatregelen voor aangepaste productiepijplijnen van grote taalmodellen
PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines
April 20, 2025
Auteurs: Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran
cs.AI
Samenvatting
Grote taalmodellen (LLMs) worden steeds vaker ingezet in gespecialiseerde productiegegevensverwerkingspijplijnen in diverse domeinen – zoals financiën, marketing en e-commerce. Wanneer ze echter in productie worden uitgevoerd over vele invoeren, slagen ze er vaak niet in om instructies op te volgen of aan de verwachtingen van ontwikkelaars te voldoen. Om de betrouwbaarheid in deze toepassingen te verbeteren, is het essentieel om beweringen of beveiligingsmaatregelen voor LLM-uitvoer te creëren die naast de pijplijnen worden uitgevoerd. Het bepalen van de juiste set beweringen die de vereisten van ontwikkelaars voor een taak vastleggen, is echter een uitdaging. In dit artikel introduceren we PROMPTEVALS, een dataset van 2087 LLM-pijplijnprompts met 12623 bijbehorende beweringcriteria, afkomstig van ontwikkelaars die onze open-source LLM-pijplijntools gebruiken. Deze dataset is 5x groter dan eerdere verzamelingen. Met behulp van een hold-out testset van PROMPTEVALS als benchmark, hebben we gesloten en open-source modellen geëvalueerd in het genereren van relevante beweringen. Opmerkelijk is dat onze fijn afgestemde Mistral- en Llama 3-modellen GPT-4o gemiddeld met 20,93% overtreffen, wat zowel een verminderde latentie als een verbeterde prestaties biedt. Wij geloven dat onze dataset verder onderzoek kan stimuleren op het gebied van LLM-betrouwbaarheid, afstemming en prompt engineering.
English
Large language models (LLMs) are increasingly deployed in specialized
production data processing pipelines across diverse domains -- such as finance,
marketing, and e-commerce. However, when running them in production across many
inputs, they often fail to follow instructions or meet developer expectations.
To improve reliability in these applications, creating assertions or guardrails
for LLM outputs to run alongside the pipelines is essential. Yet, determining
the right set of assertions that capture developer requirements for a task is
challenging. In this paper, we introduce PROMPTEVALS, a dataset of 2087 LLM
pipeline prompts with 12623 corresponding assertion criteria, sourced from
developers using our open-source LLM pipeline tools. This dataset is 5x larger
than previous collections. Using a hold-out test split of PROMPTEVALS as a
benchmark, we evaluated closed- and open-source models in generating relevant
assertions. Notably, our fine-tuned Mistral and Llama 3 models outperform
GPT-4o by 20.93% on average, offering both reduced latency and improved
performance. We believe our dataset can spur further research in LLM
reliability, alignment, and prompt engineering.Summary
AI-Generated Summary