LLM's als Feitelijke Redeneerders: Inzichten uit Bestaande Benchmarks en Daarbuiten
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond
May 23, 2023
Auteurs: Philippe Laban, Wojciech Kryściński, Divyansh Agarwal, Alexander R. Fabbri, Caiming Xiong, Shafiq Joty, Chien-Sheng Wu
cs.AI
Samenvatting
Met de recente opkomst van LLM's in praktische toepassingen is het cruciaal om methoden te hebben die feitelijke inconsistenties effectief kunnen detecteren, om de verspreiding van desinformatie te verminderen en het vertrouwen in modeluitvoer te verbeteren. Bij het testen op bestaande benchmarks voor feitelijke consistentie, blijkt dat enkele grote taalmodellen (LLM's) competitief presteren op classificatiebenchmarks voor het detecteren van feitelijke inconsistenties in vergelijking met traditionele niet-LLM-methoden. Een gedetailleerdere analyse toont echter aan dat de meeste LLM's falen bij complexere formuleringen van de taak en legt problemen bloot met bestaande evaluatiebenchmarks, wat de evaluatienauwkeurigheid beïnvloedt. Om dit aan te pakken, stellen we een nieuw protocol voor voor het creëren van inconsistentiedetectiebenchmarks en implementeren we dit in een benchmark van 10 domeinen, genaamd SummEdits. Deze nieuwe benchmark is 20 keer kosteneffectiever per sample dan eerdere benchmarks en zeer reproduceerbaar, aangezien we de interannotatorovereenkomst schatten op ongeveer 0,9. De meeste LLM's presteren slecht op SummEdits, met prestaties die dicht bij willekeurige kans liggen. Het best presterende model, GPT-4, ligt nog steeds 8% onder de geschatte menselijke prestaties, wat de tekortkomingen van LLM's benadrukt in het redeneren over feiten en het detecteren van inconsistenties wanneer deze optreden.
English
With the recent appearance of LLMs in practical settings, having methods that
can effectively detect factual inconsistencies is crucial to reduce the
propagation of misinformation and improve trust in model outputs. When testing
on existing factual consistency benchmarks, we find that a few large language
models (LLMs) perform competitively on classification benchmarks for factual
inconsistency detection compared to traditional non-LLM methods. However, a
closer analysis reveals that most LLMs fail on more complex formulations of the
task and exposes issues with existing evaluation benchmarks, affecting
evaluation precision. To address this, we propose a new protocol for
inconsistency detection benchmark creation and implement it in a 10-domain
benchmark called SummEdits. This new benchmark is 20 times more cost-effective
per sample than previous benchmarks and highly reproducible, as we estimate
inter-annotator agreement at about 0.9. Most LLMs struggle on SummEdits, with
performance close to random chance. The best-performing model, GPT-4, is still
8\% below estimated human performance, highlighting the gaps in LLMs' ability
to reason about facts and detect inconsistencies when they occur.