LLMs als Faktenverarbeiter: Erkenntnisse aus bestehenden Benchmarks und darüber hinaus
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond
May 23, 2023
Autoren: Philippe Laban, Wojciech Kryściński, Divyansh Agarwal, Alexander R. Fabbri, Caiming Xiong, Shafiq Joty, Chien-Sheng Wu
cs.AI
Zusammenfassung
Mit dem kürzlichen Einsatz von LLMs in praktischen Anwendungen ist es entscheidend, Methoden zu haben, die effektiv faktische Inkonsistenzen erkennen können, um die Verbreitung von Fehlinformationen zu reduzieren und das Vertrauen in die Modellausgaben zu verbessern. Bei Tests auf bestehenden Benchmarks zur faktischen Konsistenz stellen wir fest, dass einige große Sprachmodelle (LLMs) auf Klassifizierungs-Benchmarks zur Erkennung von faktischen Inkonsistenzen wettbewerbsfähig im Vergleich zu traditionellen Nicht-LLM-Methoden abschneiden. Eine genauere Analyse zeigt jedoch, dass die meisten LLMs bei komplexeren Formulierungen der Aufgabe versagen und Probleme mit bestehenden Evaluierungs-Benchmarks aufdecken, was die Evaluierungsgenauigkeit beeinträchtigt. Um dies zu beheben, schlagen wir ein neues Protokoll zur Erstellung von Inkonsistenz-Erkennungs-Benchmarks vor und setzen es in einem 10-Domänen-Benchmark namens SummEdits um. Dieser neue Benchmark ist 20-mal kosteneffizienter pro Stichprobe als bisherige Benchmarks und hoch reproduzierbar, da wir die Übereinstimmung zwischen den Annotatoren auf etwa 0,9 schätzen. Die meisten LLMs schneiden bei SummEdits schlecht ab, mit einer Leistung nahe dem Zufall. Das beste Modell, GPT-4, liegt immer noch 8\% unter der geschätzten menschlichen Leistung, was die Lücken in der Fähigkeit von LLMs aufzeigt, über Fakten zu schlussfolgern und Inkonsistenzen zu erkennen, wenn sie auftreten.
English
With the recent appearance of LLMs in practical settings, having methods that
can effectively detect factual inconsistencies is crucial to reduce the
propagation of misinformation and improve trust in model outputs. When testing
on existing factual consistency benchmarks, we find that a few large language
models (LLMs) perform competitively on classification benchmarks for factual
inconsistency detection compared to traditional non-LLM methods. However, a
closer analysis reveals that most LLMs fail on more complex formulations of the
task and exposes issues with existing evaluation benchmarks, affecting
evaluation precision. To address this, we propose a new protocol for
inconsistency detection benchmark creation and implement it in a 10-domain
benchmark called SummEdits. This new benchmark is 20 times more cost-effective
per sample than previous benchmarks and highly reproducible, as we estimate
inter-annotator agreement at about 0.9. Most LLMs struggle on SummEdits, with
performance close to random chance. The best-performing model, GPT-4, is still
8\% below estimated human performance, highlighting the gaps in LLMs' ability
to reason about facts and detect inconsistencies when they occur.