ChatPaper.aiChatPaper

TrueTeacher: Erlernen der Bewertung faktischer Konsistenz mit großen Sprachmodellen

TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models

May 18, 2023
Autoren: Zorik Gekhman, Jonathan Herzig, Roee Aharoni, Chen Elkind, Idan Szpektor
cs.AI

Zusammenfassung

Die Bewertung der faktischen Konsistenz wird häufig mithilfe von Natural Language Inference (NLI)-Modellen durchgeführt, doch diese Modelle zeigen nur begrenzten Erfolg bei der Bewertung von Zusammenfassungen. Frühere Arbeiten verbesserten solche Modelle durch synthetische Trainingsdaten. Diese Daten basieren jedoch typischerweise auf veränderten, von Menschen verfassten Zusammenfassungen, die sich oft in ihren Merkmalen von tatsächlich modellgenerierten Zusammenfassungen unterscheiden und nur eine begrenzte Abdeckung möglicher faktischer Fehler bieten. Alternativ haben große Sprachmodelle (LLMs) kürzlich vielversprechende Ergebnisse bei der direkten Bewertung generativer Aufgaben gezeigt, sind jedoch für den praktischen Einsatz zu rechenintensiv. Angesichts dieser Einschränkungen stellen wir TrueTeacher vor, eine Methode zur Erzeugung synthetischer Daten durch die Annotation verschiedener modellgenerierter Zusammenfassungen mithilfe eines LLMs. Im Gegensatz zu früheren Arbeiten verlässt sich TrueTeacher nicht auf von Menschen verfasste Zusammenfassungen und ist von Natur aus mehrsprachig. Experimente auf dem TRUE-Benchmark zeigen, dass ein mit unseren Daten trainiertes Schülermodell sowohl das state-of-the-art-Modell mit ähnlicher Kapazität als auch das LLM-Lehrermodell deutlich übertrifft. In einer systematischen Studie vergleichen wir TrueTeacher mit bestehenden Methoden zur Erzeugung synthetischer Daten und demonstrieren seine Überlegenheit und Robustheit gegenüber Domänenverschiebungen. Mithilfe des mFACE-Datensatzes zeigen wir außerdem, dass unsere Methode auf mehrsprachige Szenarien verallgemeinert werden kann. Schließlich veröffentlichen wir einen groß angelegten synthetischen Datensatz mit 1,4 Millionen Beispielen, die mit TrueTeacher generiert wurden.
English
Factual consistency evaluation is often conducted using Natural Language Inference (NLI) models, yet these models exhibit limited success in evaluating summaries. Previous work improved such models with synthetic training data. However, the data is typically based on perturbed human-written summaries, which often differ in their characteristics from real model-generated summaries and have limited coverage of possible factual errors. Alternatively, large language models (LLMs) have recently shown promising results in directly evaluating generative tasks, but are too computationally expensive for practical use. Motivated by these limitations, we introduce TrueTeacher, a method for generating synthetic data by annotating diverse model-generated summaries using a LLM. Unlike prior work, TrueTeacher does not rely on human-written summaries, and is multilingual by nature. Experiments on the TRUE benchmark show that a student model trained using our data, substantially outperforms both the state-of-the-art model with similar capacity, and the LLM teacher. In a systematic study, we compare TrueTeacher to existing synthetic data generation methods and demonstrate its superiority and robustness to domain-shift. Using the the mFACE dataset, we also show that our method generalizes to multilingual scenarios. Finally, we release a large-scale synthetic dataset with 1.4M examples generated using TrueTeacher.
PDF20December 15, 2024