PROMPTEVALS: 맞춤형 생산용 대규모 언어 모델 파이프라인을 위한 주장(Assertions)과 가드레일(Guardrails) 데이터셋
PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines
April 20, 2025
저자: Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran
cs.AI
초록
대규모 언어 모델(LLM)은 금융, 마케팅, 전자상거래 등 다양한 분야의 전문적인 생산 데이터 처리 파이프라인에 점점 더 많이 배포되고 있습니다. 그러나 이러한 모델을 다수의 입력에 대해 생산 환경에서 실행할 때, 종종 지시를 따르지 못하거나 개발자의 기대를 충족시키지 못하는 경우가 발생합니다. 이러한 애플리케이션에서 신뢰성을 높이기 위해, LLM 출력에 대한 검증 조건(assertion)이나 가드레일(guardrail)을 파이프라인과 함께 실행하는 것이 필수적입니다. 그러나 특정 작업에 대한 개발자의 요구사항을 포착하는 적절한 검증 조건 집합을 결정하는 것은 어려운 과제입니다. 본 논문에서는 PROMPTEVALS라는 데이터셋을 소개합니다. 이 데이터셋은 오픈소스 LLM 파이프라인 도구를 사용하는 개발자들로부터 수집된 2087개의 LLM 파이프라인 프롬프트와 12623개의 해당 검증 조건으로 구성되어 있으며, 이전 데이터셋보다 5배 더 큽니다. PROMPTEVALS의 홀드아웃 테스트 분할을 벤치마크로 사용하여, 폐쇄형 및 오픈소스 모델들이 관련 검증 조건을 생성하는 성능을 평가했습니다. 특히, 미세 조정된 Mistral과 Llama 3 모델은 GPT-4o보다 평균 20.93% 더 우수한 성능을 보였으며, 지연 시간 감소와 성능 향상을 모두 제공했습니다. 우리는 이 데이터셋이 LLM의 신뢰성, 정렬, 프롬프트 엔지니어링 분야의 추가 연구를 촉진할 수 있을 것으로 기대합니다.
English
Large language models (LLMs) are increasingly deployed in specialized
production data processing pipelines across diverse domains -- such as finance,
marketing, and e-commerce. However, when running them in production across many
inputs, they often fail to follow instructions or meet developer expectations.
To improve reliability in these applications, creating assertions or guardrails
for LLM outputs to run alongside the pipelines is essential. Yet, determining
the right set of assertions that capture developer requirements for a task is
challenging. In this paper, we introduce PROMPTEVALS, a dataset of 2087 LLM
pipeline prompts with 12623 corresponding assertion criteria, sourced from
developers using our open-source LLM pipeline tools. This dataset is 5x larger
than previous collections. Using a hold-out test split of PROMPTEVALS as a
benchmark, we evaluated closed- and open-source models in generating relevant
assertions. Notably, our fine-tuned Mistral and Llama 3 models outperform
GPT-4o by 20.93% on average, offering both reduced latency and improved
performance. We believe our dataset can spur further research in LLM
reliability, alignment, and prompt engineering.Summary
AI-Generated Summary