TrueTeacher: Het leren van evaluatie van feitelijke consistentie met grote taalmodellen

Samenvatting

Evaluatie van feitelijke consistentie wordt vaak uitgevoerd met behulp van Natural Language Inference (NLI)-modellen, maar deze modellen vertonen beperkt succes bij het evalueren van samenvattingen. Eerder werk verbeterde dergelijke modellen met synthetische trainingsdata. Deze data is echter meestal gebaseerd op aangepaste, door mensen geschreven samenvattingen, die vaak verschillen in hun kenmerken van echte, door modellen gegenereerde samenvattingen en een beperkte dekking hebben van mogelijke feitelijke fouten. Alternatief hebben grote taalmmodellen (LLMs) recent veelbelovende resultaten getoond bij het direct evalueren van generatieve taken, maar zijn ze te rekenintensief voor praktisch gebruik. Gemotiveerd door deze beperkingen introduceren we TrueTeacher, een methode voor het genereren van synthetische data door diverse, door modellen gegenereerde samenvattingen te annoteren met behulp van een LLM. In tegenstelling tot eerder werk is TrueTeacher niet afhankelijk van door mensen geschreven samenvattingen en is het van nature meertalig. Experimenten op de TRUE-benchmark laten zien dat een studentmodel getraind met onze data, zowel het state-of-the-art model met vergelijkbare capaciteit als het LLM-leraarmodel aanzienlijk overtreft. In een systematische studie vergelijken we TrueTeacher met bestaande methoden voor synthetische datageneratie en demonstreren we de superioriteit en robuustheid tegen domeinverschuiving. Met behulp van de mFACE-dataset tonen we ook aan dat onze methode generaliseert naar meertalige scenario's. Tot slot publiceren we een grootschalige synthetische dataset met 1,4 miljoen voorbeelden gegenereerd met TrueTeacher.

English

Factual consistency evaluation is often conducted using Natural Language Inference (NLI) models, yet these models exhibit limited success in evaluating summaries. Previous work improved such models with synthetic training data. However, the data is typically based on perturbed human-written summaries, which often differ in their characteristics from real model-generated summaries and have limited coverage of possible factual errors. Alternatively, large language models (LLMs) have recently shown promising results in directly evaluating generative tasks, but are too computationally expensive for practical use. Motivated by these limitations, we introduce TrueTeacher, a method for generating synthetic data by annotating diverse model-generated summaries using a LLM. Unlike prior work, TrueTeacher does not rely on human-written summaries, and is multilingual by nature. Experiments on the TRUE benchmark show that a student model trained using our data, substantially outperforms both the state-of-the-art model with similar capacity, and the LLM teacher. In a systematic study, we compare TrueTeacher to existing synthetic data generation methods and demonstrate its superiority and robustness to domain-shift. Using the the mFACE dataset, we also show that our method generalizes to multilingual scenarios. Finally, we release a large-scale synthetic dataset with 1.4M examples generated using TrueTeacher.

TrueTeacher: Het leren van evaluatie van feitelijke consistentie met grote taalmodellen

TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models

Samenvatting

Support