ChatPaper.aiChatPaper

PROMPTEVALS : Un ensemble de données d'assertions et de garde-fous pour des pipelines personnalisés de grands modèles de langage en production

PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines

April 20, 2025
Auteurs: Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran
cs.AI

Résumé

Les grands modèles de langage (LLM) sont de plus en plus déployés dans des pipelines de traitement de données spécialisés à travers divers domaines — tels que la finance, le marketing et le commerce électronique. Cependant, lorsqu'ils sont exécutés en production sur de nombreuses entrées, ils échouent souvent à suivre les instructions ou à répondre aux attentes des développeurs. Pour améliorer la fiabilité dans ces applications, il est essentiel de créer des assertions ou des garde-fous pour les sorties des LLM à exécuter parallèlement aux pipelines. Pourtant, déterminer le bon ensemble d'assertions qui capture les exigences des développeurs pour une tâche est un défi. Dans cet article, nous présentons PROMPTEVALS, un ensemble de données de 2087 prompts de pipelines LLM avec 12623 critères d'assertion correspondants, provenant de développeurs utilisant nos outils open-source de pipelines LLM. Cet ensemble de données est 5 fois plus volumineux que les collections précédentes. En utilisant une partition de test réservée de PROMPTEVALS comme référence, nous avons évalué des modèles propriétaires et open-source dans la génération d'assertions pertinentes. Notamment, nos modèles Mistral et Llama 3 affinés surpassent GPT-4o de 20,93 % en moyenne, offrant à la fois une latence réduite et une performance améliorée. Nous croyons que notre ensemble de données peut stimuler davantage de recherches sur la fiabilité, l'alignement et l'ingénierie des prompts des LLM.
English
Large language models (LLMs) are increasingly deployed in specialized production data processing pipelines across diverse domains -- such as finance, marketing, and e-commerce. However, when running them in production across many inputs, they often fail to follow instructions or meet developer expectations. To improve reliability in these applications, creating assertions or guardrails for LLM outputs to run alongside the pipelines is essential. Yet, determining the right set of assertions that capture developer requirements for a task is challenging. In this paper, we introduce PROMPTEVALS, a dataset of 2087 LLM pipeline prompts with 12623 corresponding assertion criteria, sourced from developers using our open-source LLM pipeline tools. This dataset is 5x larger than previous collections. Using a hold-out test split of PROMPTEVALS as a benchmark, we evaluated closed- and open-source models in generating relevant assertions. Notably, our fine-tuned Mistral and Llama 3 models outperform GPT-4o by 20.93% on average, offering both reduced latency and improved performance. We believe our dataset can spur further research in LLM reliability, alignment, and prompt engineering.

Summary

AI-Generated Summary

PDF42April 22, 2025