Может ли редактирование знаний действительно исправить галлюцинации?
Can Knowledge Editing Really Correct Hallucinations?
October 21, 2024
Авторы: Baixiang Huang, Canyu Chen, Xiongxiao Xu, Ali Payani, Kai Shu
cs.AI
Аннотация
Большие языковые модели (LLM) страдают от галлюцинаций, относящихся к нефактической информации в созданном контенте, несмотря на их выдающиеся возможности в различных задачах. Тем временем, редактирование знаний было разработано как новая популярная парадигма для исправления ошибочных фактических знаний, закодированных в LLM, с преимуществом избежания повторного обучения с нуля. Однако одной из общих проблем существующих наборов данных для оценки редактирования знаний является то, что они не гарантируют, что LLM действительно генерируют галлюцинационные ответы на вопросы оценки перед редактированием. Когда LLM оцениваются на таких наборах данных после редактирования различными методиками, трудно непосредственно применить результаты для оценки эффективности различных методов редактирования знаний в исправлении галлюцинаций. Таким образом, фундаментальный вопрос остается недостаточно подтвержденным: может ли редактирование знаний действительно исправить галлюцинации в LLM? Мы предложили HalluEditBench для всесторонней оценки методов редактирования знаний в исправлении реальных галлюцинаций. Во-первых, мы строго создаем обширный набор данных о галлюцинациях с 9 областями, 26 темами и более чем 6 000 галлюцинациями. Затем мы оцениваем производительность методов редактирования знаний всесторонне по пяти измерениям, включая Эффективность, Обобщение, Переносимость, Локальность и Устойчивость. Через HalluEditBench мы предоставили новые идеи о потенциалах и ограничениях различных методов редактирования знаний в исправлении галлюцинаций, что может вдохновить на будущие улучшения и способствовать прогрессу в области редактирования знаний.
English
Large Language Models (LLMs) suffer from hallucinations, referring to the
non-factual information in generated content, despite their superior capacities
across tasks. Meanwhile, knowledge editing has been developed as a new popular
paradigm to correct the erroneous factual knowledge encoded in LLMs with the
advantage of avoiding retraining from scratch. However, one common issue of
existing evaluation datasets for knowledge editing is that they do not ensure
LLMs actually generate hallucinated answers to the evaluation questions before
editing. When LLMs are evaluated on such datasets after being edited by
different techniques, it is hard to directly adopt the performance to assess
the effectiveness of different knowledge editing methods in correcting
hallucinations. Thus, the fundamental question remains insufficiently
validated: Can knowledge editing really correct hallucinations in LLMs? We
proposed HalluEditBench to holistically benchmark knowledge editing methods in
correcting real-world hallucinations. First, we rigorously construct a massive
hallucination dataset with 9 domains, 26 topics and more than 6,000
hallucinations. Then, we assess the performance of knowledge editing methods in
a holistic way on five dimensions including Efficacy, Generalization,
Portability, Locality, and Robustness. Through HalluEditBench, we have provided
new insights into the potentials and limitations of different knowledge editing
methods in correcting hallucinations, which could inspire future improvements
and facilitate the progress in the field of knowledge editing.Summary
AI-Generated Summary