LLMs como Raciocinadores Factuais: Insights de Benchmarks Existentes e Além
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond
May 23, 2023
Autores: Philippe Laban, Wojciech Kryściński, Divyansh Agarwal, Alexander R. Fabbri, Caiming Xiong, Shafiq Joty, Chien-Sheng Wu
cs.AI
Resumo
Com o recente surgimento dos LLMs em cenários práticos, ter métodos que possam detectar efetivamente inconsistências factuais é crucial para reduzir a propagação de desinformação e aumentar a confiança nas saídas dos modelos. Ao testar em benchmarks existentes de consistência factual, observamos que alguns grandes modelos de linguagem (LLMs) têm desempenho competitivo em benchmarks de classificação para detecção de inconsistências factuais em comparação com métodos tradicionais não baseados em LLMs. No entanto, uma análise mais detalhada revela que a maioria dos LLMs falha em formulações mais complexas da tarefa e expõe problemas com os benchmarks de avaliação existentes, afetando a precisão da avaliação. Para resolver isso, propomos um novo protocolo para a criação de benchmarks de detecção de inconsistências e o implementamos em um benchmark de 10 domínios chamado SummEdits. Esse novo benchmark é 20 vezes mais econômico por amostra do que os benchmarks anteriores e altamente reproduzível, com um acordo interanotadores estimado em cerca de 0,9. A maioria dos LLMs tem dificuldades no SummEdits, com desempenho próximo ao acaso. O modelo com melhor desempenho, o GPT-4, ainda está 8% abaixo do desempenho humano estimado, destacando as lacunas na capacidade dos LLMs de raciocinar sobre fatos e detectar inconsistências quando elas ocorrem.
English
With the recent appearance of LLMs in practical settings, having methods that
can effectively detect factual inconsistencies is crucial to reduce the
propagation of misinformation and improve trust in model outputs. When testing
on existing factual consistency benchmarks, we find that a few large language
models (LLMs) perform competitively on classification benchmarks for factual
inconsistency detection compared to traditional non-LLM methods. However, a
closer analysis reveals that most LLMs fail on more complex formulations of the
task and exposes issues with existing evaluation benchmarks, affecting
evaluation precision. To address this, we propose a new protocol for
inconsistency detection benchmark creation and implement it in a 10-domain
benchmark called SummEdits. This new benchmark is 20 times more cost-effective
per sample than previous benchmarks and highly reproducible, as we estimate
inter-annotator agreement at about 0.9. Most LLMs struggle on SummEdits, with
performance close to random chance. The best-performing model, GPT-4, is still
8\% below estimated human performance, highlighting the gaps in LLMs' ability
to reason about facts and detect inconsistencies when they occur.