TrueTeacher: 大規模言語モデルを用いた事実整合性評価の学習
TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models
May 18, 2023
著者: Zorik Gekhman, Jonathan Herzig, Roee Aharoni, Chen Elkind, Idan Szpektor
cs.AI
要旨
事実整合性の評価は、自然言語推論(NLI)モデルを用いて行われることが多いが、これらのモデルは要約の評価において限定的な成功しか収めていない。従来の研究では、合成トレーニングデータを用いてこれらのモデルを改善してきた。しかし、そのデータは通常、人間が書いた要約を改変したものであり、実際のモデル生成要約とは特性が異なることが多く、可能な事実誤りのカバー範囲も限られている。一方で、大規模言語モデル(LLM)は最近、生成タスクを直接評価する際に有望な結果を示しているが、実用的な使用には計算コストが高すぎる。これらの制限を動機として、我々はTrueTeacherを導入する。これは、LLMを用いて多様なモデル生成要約にアノテーションを付けることで合成データを生成する手法である。従来の研究とは異なり、TrueTeacherは人間が書いた要約に依存せず、本質的に多言語対応である。TRUEベンチマークでの実験では、我々のデータを用いてトレーニングした学生モデルが、同程度の能力を持つ最先端のモデルとLLM教師モデルの両方を大幅に上回ることを示した。体系的な研究において、TrueTeacherを既存の合成データ生成手法と比較し、その優位性とドメインシフトに対する堅牢性を実証した。mFACEデータセットを使用して、我々の手法が多言語シナリオにも一般化することを示した。最後に、TrueTeacherを用いて生成した140万の例を含む大規模な合成データセットを公開する。
English
Factual consistency evaluation is often conducted using Natural Language
Inference (NLI) models, yet these models exhibit limited success in evaluating
summaries. Previous work improved such models with synthetic training data.
However, the data is typically based on perturbed human-written summaries,
which often differ in their characteristics from real model-generated summaries
and have limited coverage of possible factual errors. Alternatively, large
language models (LLMs) have recently shown promising results in directly
evaluating generative tasks, but are too computationally expensive for
practical use. Motivated by these limitations, we introduce TrueTeacher, a
method for generating synthetic data by annotating diverse model-generated
summaries using a LLM. Unlike prior work, TrueTeacher does not rely on
human-written summaries, and is multilingual by nature. Experiments on the TRUE
benchmark show that a student model trained using our data, substantially
outperforms both the state-of-the-art model with similar capacity, and the LLM
teacher. In a systematic study, we compare TrueTeacher to existing synthetic
data generation methods and demonstrate its superiority and robustness to
domain-shift. Using the the mFACE dataset, we also show that our method
generalizes to multilingual scenarios. Finally, we release a large-scale
synthetic dataset with 1.4M examples generated using TrueTeacher.