¿Puede la Edición de Conocimiento Corregir Realmente Alucinaciones?
Can Knowledge Editing Really Correct Hallucinations?
October 21, 2024
Autores: Baixiang Huang, Canyu Chen, Xiongxiao Xu, Ali Payani, Kai Shu
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs) sufren de alucinaciones, haciendo referencia a la información no factual en el contenido generado, a pesar de sus capacidades superiores en diversas tareas. Mientras tanto, la edición de conocimiento se ha desarrollado como un nuevo paradigma popular para corregir el conocimiento factual erróneo codificado en los LLMs con la ventaja de evitar el reentrenamiento desde cero. Sin embargo, un problema común de los conjuntos de datos de evaluación existentes para la edición de conocimiento es que no garantizan que los LLMs generen realmente respuestas alucinadas a las preguntas de evaluación antes de la edición. Cuando los LLMs son evaluados en tales conjuntos de datos después de ser editados por diferentes técnicas, es difícil adoptar directamente el rendimiento para evaluar la efectividad de los diferentes métodos de edición de conocimiento en la corrección de alucinaciones. Por lo tanto, la pregunta fundamental sigue siendo insuficientemente validada: ¿Puede la edición de conocimiento realmente corregir alucinaciones en los LLMs? Hemos propuesto HalluEditBench para evaluar de manera integral los métodos de edición de conocimiento en la corrección de alucinaciones del mundo real. En primer lugar, construimos rigurosamente un extenso conjunto de datos de alucinaciones con 9 dominios, 26 temas y más de 6,000 alucinaciones. Luego, evaluamos el rendimiento de los métodos de edición de conocimiento de manera integral en cinco dimensiones que incluyen Eficacia, Generalización, Portabilidad, Localidad y Robustez. A través de HalluEditBench, hemos proporcionado nuevas perspectivas sobre el potencial y las limitaciones de diferentes métodos de edición de conocimiento en la corrección de alucinaciones, lo cual podría inspirar mejoras futuras y facilitar el progreso en el campo de la edición de conocimiento.
English
Large Language Models (LLMs) suffer from hallucinations, referring to the
non-factual information in generated content, despite their superior capacities
across tasks. Meanwhile, knowledge editing has been developed as a new popular
paradigm to correct the erroneous factual knowledge encoded in LLMs with the
advantage of avoiding retraining from scratch. However, one common issue of
existing evaluation datasets for knowledge editing is that they do not ensure
LLMs actually generate hallucinated answers to the evaluation questions before
editing. When LLMs are evaluated on such datasets after being edited by
different techniques, it is hard to directly adopt the performance to assess
the effectiveness of different knowledge editing methods in correcting
hallucinations. Thus, the fundamental question remains insufficiently
validated: Can knowledge editing really correct hallucinations in LLMs? We
proposed HalluEditBench to holistically benchmark knowledge editing methods in
correcting real-world hallucinations. First, we rigorously construct a massive
hallucination dataset with 9 domains, 26 topics and more than 6,000
hallucinations. Then, we assess the performance of knowledge editing methods in
a holistic way on five dimensions including Efficacy, Generalization,
Portability, Locality, and Robustness. Through HalluEditBench, we have provided
new insights into the potentials and limitations of different knowledge editing
methods in correcting hallucinations, which could inspire future improvements
and facilitate the progress in the field of knowledge editing.Summary
AI-Generated Summary