ChatPaper.aiChatPaper

Wahrheit oder Fata Morgana? Auf dem Weg zur End-to-End-Faktizitätsbewertung mit LLM-OASIS.

Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-OASIS

November 29, 2024
Autoren: Alessandro Scirè, Andrei Stefan Bejgu, Simone Tedeschi, Karim Ghonim, Federico Martelli, Roberto Navigli
cs.AI

Zusammenfassung

Nach der Einführung von Large Language Models (LLMs) gab es wesentliche Verbesserungen in der Leistung von Natural Language Generation (NLG)-Aufgaben, einschließlich Textzusammenfassung und maschineller Übersetzung. Dennoch liefern LLMs immer noch Ausgaben, die Halluzinationen enthalten, das heißt, Inhalte, die nicht auf faktischen Informationen basieren. Daher ist die Entwicklung von Methoden zur Bewertung der Faktizität von LLMs dringend erforderlich. Tatsächlich sind in letzter Zeit Ressourcen zur Faktizitätsbewertung aufgetaucht. Obwohl herausfordernd, stehen diesen Ressourcen eine oder mehrere der folgenden Einschränkungen gegenüber: (i) sie sind auf eine bestimmte Aufgabe oder Domäne zugeschnitten; (ii) sie sind in ihrer Größe begrenzt, was das Training neuer Faktizitätsbewerter verhindert; (iii) sie sind für einfachere Verifizierungsaufgaben wie Behauptungsüberprüfung konzipiert. Um diese Probleme anzugehen, stellen wir LLM-Oasis vor, nach unserem Kenntnisstand die größte Ressource zur Schulung von End-to-End-Faktizitätsbewertern. LLM-Oasis wird erstellt, indem Behauptungen aus Wikipedia extrahiert, ein Teil dieser Behauptungen falsifiziert und Paare von faktischen und nicht-faktischen Texten generiert werden. Anschließend verlassen wir uns auf menschliche Annotatoren, um sowohl die Qualität unseres Datensatzes zu validieren als auch einen Goldstandard-Testdatensatz zur Benchmarking von Faktizitätsbewertungssystemen zu erstellen. Unsere Experimente zeigen, dass LLM-Oasis eine signifikante Herausforderung für modernste LLMs darstellt, wobei GPT-4o in unserer vorgeschlagenen End-to-End-Faktizitätsbewertungsaufgabe eine Genauigkeit von bis zu 60% erreicht, was sein Potenzial zur Förderung zukünftiger Forschung in diesem Bereich unterstreicht.
English
After the introduction of Large Language Models (LLMs), there have been substantial improvements in the performance of Natural Language Generation (NLG) tasks, including Text Summarization and Machine Translation. However, LLMs still produce outputs containing hallucinations, that is, content not grounded in factual information. Therefore, developing methods to assess the factuality of LLMs has become urgent. Indeed, resources for factuality evaluation have recently emerged. Although challenging, these resources face one or more of the following limitations: (i) they are tailored to a specific task or domain; (ii) they are limited in size, thereby preventing the training of new factuality evaluators; (iii) they are designed for simpler verification tasks, such as claim verification. To address these issues, we introduce LLM-Oasis, to the best of our knowledge the largest resource for training end-to-end factuality evaluators. LLM-Oasis is constructed by extracting claims from Wikipedia, falsifying a subset of these claims, and generating pairs of factual and unfactual texts. We then rely on human annotators to both validate the quality of our dataset and to create a gold standard test set for benchmarking factuality evaluation systems. Our experiments demonstrate that LLM-Oasis presents a significant challenge for state-of-the-art LLMs, with GPT-4o achieving up to 60% accuracy in our proposed end-to-end factuality evaluation task, highlighting its potential to drive future research in the field.

Summary

AI-Generated Summary

PDF202December 4, 2024