LLMを事実推論者として:既存ベンチマークからの洞察とその先へ
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond
May 23, 2023
著者: Philippe Laban, Wojciech Kryściński, Divyansh Agarwal, Alexander R. Fabbri, Caiming Xiong, Shafiq Joty, Chien-Sheng Wu
cs.AI
要旨
最近の実用環境における大規模言語モデル(LLM)の登場に伴い、事実的不整合を効果的に検出する方法を持つことは、誤情報の拡散を減らし、モデル出力への信頼を向上させるために極めて重要です。既存の事実的一貫性ベンチマークでテストを行ったところ、いくつかの大規模言語モデル(LLM)が、従来の非LLM手法と比較して、事実的不整合検出の分類ベンチマークで競争力のある性能を示すことがわかりました。しかし、より詳細な分析により、ほとんどのLLMがより複雑なタスクの定式化において失敗し、既存の評価ベンチマークの問題が明らかになり、評価精度に影響を与えていることが判明しました。これに対処するため、我々は不整合検出ベンチマーク作成の新しいプロトコルを提案し、それを10ドメインのベンチマーク「SummEdits」に実装しました。この新しいベンチマークは、サンプルあたりのコストが従来のベンチマークの20分の1であり、再現性が高く、アノテーター間一致率は約0.9と推定されています。ほとんどのLLMはSummEditsで苦戦し、性能はほぼランダムに近い結果を示しています。最高性能のモデルであるGPT-4でさえ、推定される人間の性能よりも8%低く、LLMが事実について推論し、不整合を検出する能力に依然としてギャップがあることが浮き彫りになりました。
English
With the recent appearance of LLMs in practical settings, having methods that
can effectively detect factual inconsistencies is crucial to reduce the
propagation of misinformation and improve trust in model outputs. When testing
on existing factual consistency benchmarks, we find that a few large language
models (LLMs) perform competitively on classification benchmarks for factual
inconsistency detection compared to traditional non-LLM methods. However, a
closer analysis reveals that most LLMs fail on more complex formulations of the
task and exposes issues with existing evaluation benchmarks, affecting
evaluation precision. To address this, we propose a new protocol for
inconsistency detection benchmark creation and implement it in a 10-domain
benchmark called SummEdits. This new benchmark is 20 times more cost-effective
per sample than previous benchmarks and highly reproducible, as we estimate
inter-annotator agreement at about 0.9. Most LLMs struggle on SummEdits, with
performance close to random chance. The best-performing model, GPT-4, is still
8\% below estimated human performance, highlighting the gaps in LLMs' ability
to reason about facts and detect inconsistencies when they occur.