ChatPaper.aiChatPaper

PROMPTEVALS:カスタム生産用大規模言語モデルパイプラインのためのアサーションとガードレールのデータセット

PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines

April 20, 2025
著者: Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran
cs.AI

要旨

大規模言語モデル(LLM)は、金融、マーケティング、eコマースなど多様な領域における専門的な生産データ処理パイプラインでますます活用されています。しかし、多くの入力に対して本番環境で実行する際、指示に従わなかったり開発者の期待を満たさないことがしばしばあります。これらのアプリケーションにおける信頼性を向上させるためには、LLMの出力に対してアサーションやガードレールを作成し、パイプラインと並行して実行することが不可欠です。しかし、タスクに対する開発者の要件を捉えた適切なアサーションのセットを決定することは困難です。本論文では、PROMPTEVALSを紹介します。これは、私たちのオープンソースLLMパイプラインツールを使用する開発者から収集された2087のLLMパイプラインプロンプトと12623の対応するアサーション基準からなるデータセットです。このデータセットは、以前のコレクションよりも5倍大きい規模です。PROMPTEVALSのホールドアウトテストスプリットをベンチマークとして使用し、クローズドソースおよびオープンソースモデルが関連するアサーションを生成する能力を評価しました。特に、私たちがファインチューニングしたMistralとLlama 3モデルは、GPT-4oを平均20.93%上回り、レイテンシの低減とパフォーマンスの向上を実現しました。私たちは、このデータセットがLLMの信頼性、アライメント、およびプロンプトエンジニアリングに関するさらなる研究を促進することを期待しています。
English
Large language models (LLMs) are increasingly deployed in specialized production data processing pipelines across diverse domains -- such as finance, marketing, and e-commerce. However, when running them in production across many inputs, they often fail to follow instructions or meet developer expectations. To improve reliability in these applications, creating assertions or guardrails for LLM outputs to run alongside the pipelines is essential. Yet, determining the right set of assertions that capture developer requirements for a task is challenging. In this paper, we introduce PROMPTEVALS, a dataset of 2087 LLM pipeline prompts with 12623 corresponding assertion criteria, sourced from developers using our open-source LLM pipeline tools. This dataset is 5x larger than previous collections. Using a hold-out test split of PROMPTEVALS as a benchmark, we evaluated closed- and open-source models in generating relevant assertions. Notably, our fine-tuned Mistral and Llama 3 models outperform GPT-4o by 20.93% on average, offering both reduced latency and improved performance. We believe our dataset can spur further research in LLM reliability, alignment, and prompt engineering.

Summary

AI-Generated Summary

PDF42April 22, 2025