独自のデータを持ち込め!大規模言語モデルのための自己教師あり評価
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models
June 23, 2023
著者: Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI
要旨
大規模言語モデル(LLMs)の台頭とその多様な領域での普及に伴い、現実的なデータに対する言語モデルの挙動を測定することが不可欠となっています。例えば、顧客向けチャットボットを展開する企業は、モデルが顧客のリクエストに対して不適切な言葉で応答しないことを保証しなければなりません。現在の評価手法では、人間が手作業でラベル付けした小さなドメイン固有のデータセットを使用してこの問題にアプローチしています。これらの評価セットは、しばしば狭く単純化された分布からサンプリングされており、データソースがトレーニングセットに知らず知らずのうちに漏れ込むことがあり、誤解を招く評価につながる可能性があります。これらの欠点を回避するために、入力テキストに対する変換に対する感度または不変性を分析することで、LLMsの自己教師あり評価のフレームワークを提案します。自己教師あり評価は、現場で収集されたデータセットやライブモデル展開中にストリーミングされたデータセットに対するLLMの挙動を直接監視することができます。私たちは、閉じた知識、毒性、長距離文脈依存性の測定に加えて、文法構造やトークン化エラーに対する感度を測定するための自己教師あり評価戦略を実証します。類似の人間によるラベル付けされたベンチマークとの比較が可能な場合、自己教師あり評価と人間による教師あり評価の間に強い相関関係が見られます。自己教師ありパラダイムは、ラベル付きデータに依存する現在の評価戦略を補完するものです。
English
With the rise of Large Language Models (LLMs) and their ubiquitous deployment
in diverse domains, measuring language model behavior on realistic data is
imperative. For example, a company deploying a client-facing chatbot must
ensure that the model will not respond to client requests with profanity.
Current evaluations approach this problem using small, domain-specific datasets
with human-curated labels. These evaluation sets are often sampled from a
narrow and simplified distribution, and data sources can unknowingly be leaked
into the training set which can lead to misleading evaluations. To bypass these
drawbacks, we propose a framework for self-supervised evaluation of LLMs by
analyzing their sensitivity or invariance to transformations on the input text.
Self-supervised evaluation can directly monitor LLM behavior on datasets
collected in the wild or streamed during live model deployment. We demonstrate
self-supervised evaluation strategies for measuring closed-book knowledge,
toxicity, and long-range context dependence, in addition to sensitivity to
grammatical structure and tokenization errors. When comparisons to similar
human-labeled benchmarks are available, we find strong correlations between
self-supervised and human-supervised evaluations. The self-supervised paradigm
complements current evaluation strategies that rely on labeled data.