LLMs como Raciocinadores Factuais: Insights de Benchmarks Existentes e Além

Resumo

Com o recente surgimento dos LLMs em cenários práticos, ter métodos que possam detectar efetivamente inconsistências factuais é crucial para reduzir a propagação de desinformação e aumentar a confiança nas saídas dos modelos. Ao testar em benchmarks existentes de consistência factual, observamos que alguns grandes modelos de linguagem (LLMs) têm desempenho competitivo em benchmarks de classificação para detecção de inconsistências factuais em comparação com métodos tradicionais não baseados em LLMs. No entanto, uma análise mais detalhada revela que a maioria dos LLMs falha em formulações mais complexas da tarefa e expõe problemas com os benchmarks de avaliação existentes, afetando a precisão da avaliação. Para resolver isso, propomos um novo protocolo para a criação de benchmarks de detecção de inconsistências e o implementamos em um benchmark de 10 domínios chamado SummEdits. Esse novo benchmark é 20 vezes mais econômico por amostra do que os benchmarks anteriores e altamente reproduzível, com um acordo interanotadores estimado em cerca de 0,9. A maioria dos LLMs tem dificuldades no SummEdits, com desempenho próximo ao acaso. O modelo com melhor desempenho, o GPT-4, ainda está 8% abaixo do desempenho humano estimado, destacando as lacunas na capacidade dos LLMs de raciocinar sobre fatos e detectar inconsistências quando elas ocorrem.

English

With the recent appearance of LLMs in practical settings, having methods that can effectively detect factual inconsistencies is crucial to reduce the propagation of misinformation and improve trust in model outputs. When testing on existing factual consistency benchmarks, we find that a few large language models (LLMs) perform competitively on classification benchmarks for factual inconsistency detection compared to traditional non-LLM methods. However, a closer analysis reveals that most LLMs fail on more complex formulations of the task and exposes issues with existing evaluation benchmarks, affecting evaluation precision. To address this, we propose a new protocol for inconsistency detection benchmark creation and implement it in a 10-domain benchmark called SummEdits. This new benchmark is 20 times more cost-effective per sample than previous benchmarks and highly reproducible, as we estimate inter-annotator agreement at about 0.9. Most LLMs struggle on SummEdits, with performance close to random chance. The best-performing model, GPT-4, is still 8\% below estimated human performance, highlighting the gaps in LLMs' ability to reason about facts and detect inconsistencies when they occur.

LLMs como Raciocinadores Factuais: Insights de Benchmarks Existentes e Além

LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond

Resumo

Support