真実か幻想か?LLM-OASISを用いたエンドツーエンドの事実性評価に向けて
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-OASIS
November 29, 2024
著者: Alessandro Scirè, Andrei Stefan Bejgu, Simone Tedeschi, Karim Ghonim, Federico Martelli, Roberto Navigli
cs.AI
要旨
大規模言語モデル(LLM)の導入後、自然言語生成(NLG)タスクの性能には著しい改善が見られ、テキスト要約や機械翻訳などが含まれます。ただし、LLMは依然として事実情報に基づかない内容を含む出力を生成しており、これを幻覚と呼びます。そのため、LLMの事実性を評価する方法を開発することが急務となっています。
実際、最近、事実性評価のためのリソースが登場しています。これらのリソースは、いくつかの制限に直面しており、次のいずれかを満たしています:(i)特定のタスクやドメインに特化している、(ii)サイズが制限されており、新しい事実性評価者のトレーニングを妨げている、(iii)主張の検証など、より単純な検証タスク向けに設計されています。
これらの問題に対処するために、私たちはLLM-Oasisを導入します。これは、私たちの知る限り最大のエンドツーエンド事実性評価者のトレーニングリソースです。LLM-Oasisは、Wikipediaから主張を抽出し、これらの主張のサブセットを偽造し、事実と非事実のテキストのペアを生成して構築されています。その後、人間の注釈者によって、データセットの品質を検証し、事実性評価システムのベンチマークテストセットを作成します。
私たちの実験は、LLM-Oasisが最先端のLLMにとって重要な課題を提供していることを示しており、提案されたエンドツーエンド事実性評価タスクでGPT-4oが最大60%の精度を達成していることを明らかにし、今後の研究を推進する潜在能力を強調しています。
English
After the introduction of Large Language Models (LLMs), there have been
substantial improvements in the performance of Natural Language Generation
(NLG) tasks, including Text Summarization and Machine Translation. However,
LLMs still produce outputs containing hallucinations, that is, content not
grounded in factual information. Therefore, developing methods to assess the
factuality of LLMs has become urgent.
Indeed, resources for factuality evaluation have recently emerged. Although
challenging, these resources face one or more of the following limitations: (i)
they are tailored to a specific task or domain; (ii) they are limited in size,
thereby preventing the training of new factuality evaluators; (iii) they are
designed for simpler verification tasks, such as claim verification.
To address these issues, we introduce LLM-Oasis, to the best of our knowledge
the largest resource for training end-to-end factuality evaluators. LLM-Oasis
is constructed by extracting claims from Wikipedia, falsifying a subset of
these claims, and generating pairs of factual and unfactual texts. We then rely
on human annotators to both validate the quality of our dataset and to create a
gold standard test set for benchmarking factuality evaluation systems.
Our experiments demonstrate that LLM-Oasis presents a significant challenge
for state-of-the-art LLMs, with GPT-4o achieving up to 60% accuracy in our
proposed end-to-end factuality evaluation task, highlighting its potential to
drive future research in the field.Summary
AI-Generated Summary