LLM как инструменты для фактологического рассуждения: выводы из существующих тестов и перспективы развития
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond
May 23, 2023
Авторы: Philippe Laban, Wojciech Kryściński, Divyansh Agarwal, Alexander R. Fabbri, Caiming Xiong, Shafiq Joty, Chien-Sheng Wu
cs.AI
Аннотация
С появлением крупных языковых моделей (LLM) в практических приложениях, наличие методов, способных эффективно выявлять фактические несоответствия, становится крайне важным для снижения распространения дезинформации и повышения доверия к выводам моделей. При тестировании на существующих эталонных наборах данных для проверки фактической согласованности мы обнаружили, что несколько крупных языковых моделей демонстрируют конкурентоспособные результаты на классификационных тестах для обнаружения фактических несоответствий по сравнению с традиционными методами, не основанными на LLM. Однако более детальный анализ показывает, что большинство LLM не справляются с более сложными формулировками задачи, а также выявляет проблемы с существующими эталонными наборами для оценки, что влияет на точность измерений. Для решения этой проблемы мы предлагаем новый протокол создания эталонных наборов для обнаружения несоответствий и реализуем его в наборе данных SummEdits, охватывающем 10 предметных областей. Этот новый набор данных в 20 раз более экономичен на один образец по сравнению с предыдущими эталонами и обладает высокой воспроизводимостью, так как согласованность между аннотаторами оценивается на уровне около 0,9. Большинство LLM демонстрируют низкие результаты на SummEdits, близкие к случайным. Лучшая модель, GPT-4, всё ещё отстаёт на 8% от предполагаемой производительности человека, что подчеркивает пробелы в способности LLM анализировать факты и обнаруживать несоответствия, когда они возникают.
English
With the recent appearance of LLMs in practical settings, having methods that
can effectively detect factual inconsistencies is crucial to reduce the
propagation of misinformation and improve trust in model outputs. When testing
on existing factual consistency benchmarks, we find that a few large language
models (LLMs) perform competitively on classification benchmarks for factual
inconsistency detection compared to traditional non-LLM methods. However, a
closer analysis reveals that most LLMs fail on more complex formulations of the
task and exposes issues with existing evaluation benchmarks, affecting
evaluation precision. To address this, we propose a new protocol for
inconsistency detection benchmark creation and implement it in a 10-domain
benchmark called SummEdits. This new benchmark is 20 times more cost-effective
per sample than previous benchmarks and highly reproducible, as we estimate
inter-annotator agreement at about 0.9. Most LLMs struggle on SummEdits, with
performance close to random chance. The best-performing model, GPT-4, is still
8\% below estimated human performance, highlighting the gaps in LLMs' ability
to reason about facts and detect inconsistencies when they occur.