ChatPaper.aiChatPaper

PROMPTEVALS: Ein Datensatz von Assertions und Guardrails für maßgeschneiderte Produktionspipelines großer Sprachmodelle

PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines

April 20, 2025
Autoren: Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) werden zunehmend in spezialisierten Produktionsdatenverarbeitungspipelines in verschiedenen Bereichen wie Finanzen, Marketing und E-Commerce eingesetzt. Wenn sie jedoch in der Produktion über viele Eingaben hinweg ausgeführt werden, scheitern sie oft daran, Anweisungen zu befolgen oder die Erwartungen der Entwickler zu erfüllen. Um die Zuverlässigkeit in diesen Anwendungen zu verbessern, ist es entscheidend, Assertions oder Sicherheitsvorkehrungen für die Ausgaben der LLMs zu erstellen, die parallel zu den Pipelines laufen. Dennoch ist es eine Herausforderung, die richtige Menge an Assertions zu bestimmen, die die Anforderungen der Entwickler für eine Aufgabe erfassen. In diesem Artikel stellen wir PROMPTEVALS vor, einen Datensatz von 2087 LLM-Pipeline-Prompts mit 12623 entsprechenden Assertion-Kriterien, die von Entwicklern stammen, die unsere Open-Source-LLM-Pipeline-Tools verwenden. Dieser Datensatz ist 5x größer als bisherige Sammlungen. Mit einem Hold-Out-Test-Split von PROMPTEVALS als Benchmark haben wir geschlossene und Open-Source-Modelle bei der Generierung relevanter Assertions bewertet. Bemerkenswerterweise übertreffen unsere feinabgestimmten Mistral- und Llama-3-Modelle GPT-4o im Durchschnitt um 20,93 % und bieten sowohl reduzierte Latenz als auch verbesserte Leistung. Wir glauben, dass unser Datensatz weitere Forschungen in den Bereichen LLM-Zuverlässigkeit, Ausrichtung und Prompt-Engineering anregen kann.
English
Large language models (LLMs) are increasingly deployed in specialized production data processing pipelines across diverse domains -- such as finance, marketing, and e-commerce. However, when running them in production across many inputs, they often fail to follow instructions or meet developer expectations. To improve reliability in these applications, creating assertions or guardrails for LLM outputs to run alongside the pipelines is essential. Yet, determining the right set of assertions that capture developer requirements for a task is challenging. In this paper, we introduce PROMPTEVALS, a dataset of 2087 LLM pipeline prompts with 12623 corresponding assertion criteria, sourced from developers using our open-source LLM pipeline tools. This dataset is 5x larger than previous collections. Using a hold-out test split of PROMPTEVALS as a benchmark, we evaluated closed- and open-source models in generating relevant assertions. Notably, our fine-tuned Mistral and Llama 3 models outperform GPT-4o by 20.93% on average, offering both reduced latency and improved performance. We believe our dataset can spur further research in LLM reliability, alignment, and prompt engineering.

Summary

AI-Generated Summary

PDF42April 22, 2025