LLM's als Feitelijke Redeneerders: Inzichten uit Bestaande Benchmarks en Daarbuiten

Samenvatting

Met de recente opkomst van LLM's in praktische toepassingen is het cruciaal om methoden te hebben die feitelijke inconsistenties effectief kunnen detecteren, om de verspreiding van desinformatie te verminderen en het vertrouwen in modeluitvoer te verbeteren. Bij het testen op bestaande benchmarks voor feitelijke consistentie, blijkt dat enkele grote taalmodellen (LLM's) competitief presteren op classificatiebenchmarks voor het detecteren van feitelijke inconsistenties in vergelijking met traditionele niet-LLM-methoden. Een gedetailleerdere analyse toont echter aan dat de meeste LLM's falen bij complexere formuleringen van de taak en legt problemen bloot met bestaande evaluatiebenchmarks, wat de evaluatienauwkeurigheid beïnvloedt. Om dit aan te pakken, stellen we een nieuw protocol voor voor het creëren van inconsistentiedetectiebenchmarks en implementeren we dit in een benchmark van 10 domeinen, genaamd SummEdits. Deze nieuwe benchmark is 20 keer kosteneffectiever per sample dan eerdere benchmarks en zeer reproduceerbaar, aangezien we de interannotatorovereenkomst schatten op ongeveer 0,9. De meeste LLM's presteren slecht op SummEdits, met prestaties die dicht bij willekeurige kans liggen. Het best presterende model, GPT-4, ligt nog steeds 8% onder de geschatte menselijke prestaties, wat de tekortkomingen van LLM's benadrukt in het redeneren over feiten en het detecteren van inconsistenties wanneer deze optreden.

English

With the recent appearance of LLMs in practical settings, having methods that can effectively detect factual inconsistencies is crucial to reduce the propagation of misinformation and improve trust in model outputs. When testing on existing factual consistency benchmarks, we find that a few large language models (LLMs) perform competitively on classification benchmarks for factual inconsistency detection compared to traditional non-LLM methods. However, a closer analysis reveals that most LLMs fail on more complex formulations of the task and exposes issues with existing evaluation benchmarks, affecting evaluation precision. To address this, we propose a new protocol for inconsistency detection benchmark creation and implement it in a 10-domain benchmark called SummEdits. This new benchmark is 20 times more cost-effective per sample than previous benchmarks and highly reproducible, as we estimate inter-annotator agreement at about 0.9. Most LLMs struggle on SummEdits, with performance close to random chance. The best-performing model, GPT-4, is still 8\% below estimated human performance, highlighting the gaps in LLMs' ability to reason about facts and detect inconsistencies when they occur.

LLM's als Feitelijke Redeneerders: Inzichten uit Bestaande Benchmarks en Daarbuiten

LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond

Samenvatting

Support