PROMPTEVALS: Ein Datensatz von Assertions und Guardrails für maßgeschneiderte Produktionspipelines großer Sprachmodelle
PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines
April 20, 2025
Autoren: Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden zunehmend in spezialisierten Produktionsdatenverarbeitungspipelines in verschiedenen Bereichen wie Finanzen, Marketing und E-Commerce eingesetzt. Wenn sie jedoch in der Produktion über viele Eingaben hinweg ausgeführt werden, scheitern sie oft daran, Anweisungen zu befolgen oder die Erwartungen der Entwickler zu erfüllen. Um die Zuverlässigkeit in diesen Anwendungen zu verbessern, ist es entscheidend, Assertions oder Sicherheitsvorkehrungen für die Ausgaben der LLMs zu erstellen, die parallel zu den Pipelines laufen. Dennoch ist es eine Herausforderung, die richtige Menge an Assertions zu bestimmen, die die Anforderungen der Entwickler für eine Aufgabe erfassen. In diesem Artikel stellen wir PROMPTEVALS vor, einen Datensatz von 2087 LLM-Pipeline-Prompts mit 12623 entsprechenden Assertion-Kriterien, die von Entwicklern stammen, die unsere Open-Source-LLM-Pipeline-Tools verwenden. Dieser Datensatz ist 5x größer als bisherige Sammlungen. Mit einem Hold-Out-Test-Split von PROMPTEVALS als Benchmark haben wir geschlossene und Open-Source-Modelle bei der Generierung relevanter Assertions bewertet. Bemerkenswerterweise übertreffen unsere feinabgestimmten Mistral- und Llama-3-Modelle GPT-4o im Durchschnitt um 20,93 % und bieten sowohl reduzierte Latenz als auch verbesserte Leistung. Wir glauben, dass unser Datensatz weitere Forschungen in den Bereichen LLM-Zuverlässigkeit, Ausrichtung und Prompt-Engineering anregen kann.
English
Large language models (LLMs) are increasingly deployed in specialized
production data processing pipelines across diverse domains -- such as finance,
marketing, and e-commerce. However, when running them in production across many
inputs, they often fail to follow instructions or meet developer expectations.
To improve reliability in these applications, creating assertions or guardrails
for LLM outputs to run alongside the pipelines is essential. Yet, determining
the right set of assertions that capture developer requirements for a task is
challenging. In this paper, we introduce PROMPTEVALS, a dataset of 2087 LLM
pipeline prompts with 12623 corresponding assertion criteria, sourced from
developers using our open-source LLM pipeline tools. This dataset is 5x larger
than previous collections. Using a hold-out test split of PROMPTEVALS as a
benchmark, we evaluated closed- and open-source models in generating relevant
assertions. Notably, our fine-tuned Mistral and Llama 3 models outperform
GPT-4o by 20.93% on average, offering both reduced latency and improved
performance. We believe our dataset can spur further research in LLM
reliability, alignment, and prompt engineering.Summary
AI-Generated Summary