ChatPaper.aiChatPaper

LLMs como razonadores factuales: Perspectivas desde los benchmarks existentes y más allá

LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond

May 23, 2023
Autores: Philippe Laban, Wojciech Kryściński, Divyansh Agarwal, Alexander R. Fabbri, Caiming Xiong, Shafiq Joty, Chien-Sheng Wu
cs.AI

Resumen

Con la reciente aparición de los LLMs en entornos prácticos, contar con métodos que puedan detectar de manera efectiva inconsistencias factuales es crucial para reducir la propagación de desinformación y mejorar la confianza en las salidas de los modelos. Al evaluar en los benchmarks existentes de consistencia factual, encontramos que algunos modelos de lenguaje grandes (LLMs) tienen un desempeño competitivo en benchmarks de clasificación para la detección de inconsistencias factuales en comparación con métodos tradicionales no basados en LLMs. Sin embargo, un análisis más detallado revela que la mayoría de los LLMs fallan en formulaciones más complejas de la tarea y expone problemas con los benchmarks de evaluación existentes, lo que afecta la precisión de la evaluación. Para abordar esto, proponemos un nuevo protocolo para la creación de benchmarks de detección de inconsistencias y lo implementamos en un benchmark de 10 dominios llamado SummEdits. Este nuevo benchmark es 20 veces más rentable por muestra que los benchmarks anteriores y altamente reproducible, ya que estimamos un acuerdo interanotador de aproximadamente 0.9. La mayoría de los LLMs tienen dificultades en SummEdits, con un rendimiento cercano al azar. El modelo con mejor desempeño, GPT-4, sigue estando un 8% por debajo del rendimiento humano estimado, lo que destaca las brechas en la capacidad de los LLMs para razonar sobre hechos y detectar inconsistencias cuando ocurren.
English
With the recent appearance of LLMs in practical settings, having methods that can effectively detect factual inconsistencies is crucial to reduce the propagation of misinformation and improve trust in model outputs. When testing on existing factual consistency benchmarks, we find that a few large language models (LLMs) perform competitively on classification benchmarks for factual inconsistency detection compared to traditional non-LLM methods. However, a closer analysis reveals that most LLMs fail on more complex formulations of the task and exposes issues with existing evaluation benchmarks, affecting evaluation precision. To address this, we propose a new protocol for inconsistency detection benchmark creation and implement it in a 10-domain benchmark called SummEdits. This new benchmark is 20 times more cost-effective per sample than previous benchmarks and highly reproducible, as we estimate inter-annotator agreement at about 0.9. Most LLMs struggle on SummEdits, with performance close to random chance. The best-performing model, GPT-4, is still 8\% below estimated human performance, highlighting the gaps in LLMs' ability to reason about facts and detect inconsistencies when they occur.
PDF21December 15, 2024