TrueTeacher: Het leren van evaluatie van feitelijke consistentie met grote taalmodellen
TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models
May 18, 2023
Auteurs: Zorik Gekhman, Jonathan Herzig, Roee Aharoni, Chen Elkind, Idan Szpektor
cs.AI
Samenvatting
Evaluatie van feitelijke consistentie wordt vaak uitgevoerd met behulp van Natural Language Inference (NLI)-modellen, maar deze modellen vertonen beperkt succes bij het evalueren van samenvattingen. Eerder werk verbeterde dergelijke modellen met synthetische trainingsdata. Deze data is echter meestal gebaseerd op aangepaste, door mensen geschreven samenvattingen, die vaak verschillen in hun kenmerken van echte, door modellen gegenereerde samenvattingen en een beperkte dekking hebben van mogelijke feitelijke fouten. Alternatief hebben grote taalmmodellen (LLMs) recent veelbelovende resultaten getoond bij het direct evalueren van generatieve taken, maar zijn ze te rekenintensief voor praktisch gebruik. Gemotiveerd door deze beperkingen introduceren we TrueTeacher, een methode voor het genereren van synthetische data door diverse, door modellen gegenereerde samenvattingen te annoteren met behulp van een LLM. In tegenstelling tot eerder werk is TrueTeacher niet afhankelijk van door mensen geschreven samenvattingen en is het van nature meertalig. Experimenten op de TRUE-benchmark laten zien dat een studentmodel getraind met onze data, zowel het state-of-the-art model met vergelijkbare capaciteit als het LLM-leraarmodel aanzienlijk overtreft. In een systematische studie vergelijken we TrueTeacher met bestaande methoden voor synthetische datageneratie en demonstreren we de superioriteit en robuustheid tegen domeinverschuiving. Met behulp van de mFACE-dataset tonen we ook aan dat onze methode generaliseert naar meertalige scenario's. Tot slot publiceren we een grootschalige synthetische dataset met 1,4 miljoen voorbeelden gegenereerd met TrueTeacher.
English
Factual consistency evaluation is often conducted using Natural Language
Inference (NLI) models, yet these models exhibit limited success in evaluating
summaries. Previous work improved such models with synthetic training data.
However, the data is typically based on perturbed human-written summaries,
which often differ in their characteristics from real model-generated summaries
and have limited coverage of possible factual errors. Alternatively, large
language models (LLMs) have recently shown promising results in directly
evaluating generative tasks, but are too computationally expensive for
practical use. Motivated by these limitations, we introduce TrueTeacher, a
method for generating synthetic data by annotating diverse model-generated
summaries using a LLM. Unlike prior work, TrueTeacher does not rely on
human-written summaries, and is multilingual by nature. Experiments on the TRUE
benchmark show that a student model trained using our data, substantially
outperforms both the state-of-the-art model with similar capacity, and the LLM
teacher. In a systematic study, we compare TrueTeacher to existing synthetic
data generation methods and demonstrate its superiority and robustness to
domain-shift. Using the the mFACE dataset, we also show that our method
generalizes to multilingual scenarios. Finally, we release a large-scale
synthetic dataset with 1.4M examples generated using TrueTeacher.