PROMPTEVALS:カスタム生産用大規模言語モデルパイプラインのためのアサーションとガードレールのデータセット
PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines
April 20, 2025
著者: Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran
cs.AI
要旨
大規模言語モデル(LLM)は、金融、マーケティング、eコマースなど多様な領域における専門的な生産データ処理パイプラインでますます活用されています。しかし、多くの入力に対して本番環境で実行する際、指示に従わなかったり開発者の期待を満たさないことがしばしばあります。これらのアプリケーションにおける信頼性を向上させるためには、LLMの出力に対してアサーションやガードレールを作成し、パイプラインと並行して実行することが不可欠です。しかし、タスクに対する開発者の要件を捉えた適切なアサーションのセットを決定することは困難です。本論文では、PROMPTEVALSを紹介します。これは、私たちのオープンソースLLMパイプラインツールを使用する開発者から収集された2087のLLMパイプラインプロンプトと12623の対応するアサーション基準からなるデータセットです。このデータセットは、以前のコレクションよりも5倍大きい規模です。PROMPTEVALSのホールドアウトテストスプリットをベンチマークとして使用し、クローズドソースおよびオープンソースモデルが関連するアサーションを生成する能力を評価しました。特に、私たちがファインチューニングしたMistralとLlama 3モデルは、GPT-4oを平均20.93%上回り、レイテンシの低減とパフォーマンスの向上を実現しました。私たちは、このデータセットがLLMの信頼性、アライメント、およびプロンプトエンジニアリングに関するさらなる研究を促進することを期待しています。
English
Large language models (LLMs) are increasingly deployed in specialized
production data processing pipelines across diverse domains -- such as finance,
marketing, and e-commerce. However, when running them in production across many
inputs, they often fail to follow instructions or meet developer expectations.
To improve reliability in these applications, creating assertions or guardrails
for LLM outputs to run alongside the pipelines is essential. Yet, determining
the right set of assertions that capture developer requirements for a task is
challenging. In this paper, we introduce PROMPTEVALS, a dataset of 2087 LLM
pipeline prompts with 12623 corresponding assertion criteria, sourced from
developers using our open-source LLM pipeline tools. This dataset is 5x larger
than previous collections. Using a hold-out test split of PROMPTEVALS as a
benchmark, we evaluated closed- and open-source models in generating relevant
assertions. Notably, our fine-tuned Mistral and Llama 3 models outperform
GPT-4o by 20.93% on average, offering both reduced latency and improved
performance. We believe our dataset can spur further research in LLM
reliability, alignment, and prompt engineering.Summary
AI-Generated Summary