Evaluación del ajuste de conocimiento chino en modelos de lenguaje grandes
Benchmarking Chinese Knowledge Rectification in Large Language Models
September 9, 2024
Autores: Tianhe Lu, Jizhan Fang, Yunzhi Yao, Xin Xu, Ningyu Zhang, Huajun Chen
cs.AI
Resumen
Si bien los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) exhiben notables capacidades generativas, no están exentos de fallos, especialmente en forma de alucinaciones. Este problema es aún más evidente cuando se aplican LLMs a idiomas y dominios específicos. Por ejemplo, los LLMs pueden generar información sin sentido al manejar poesía antigua china, proverbios o modismos, debido a la falta de conocimiento específico. Con este fin, este artículo presenta un punto de referencia para corregir el conocimiento chino en los LLMs a través de la edición de conocimiento. Específicamente, introducimos un nuevo conjunto de datos chino, CKnowEdit, mediante la recopilación de siete tipos de conocimiento de diversas fuentes, incluidos textos clásicos, modismos y contenido de Baidu Tieba Ruozhiba, teniendo en cuenta la singular polifonía, antítesis y construcciones lógicas inherentes al idioma chino. A través del análisis de este conjunto de datos, descubrimos los desafíos que enfrentan los LLMs actuales para dominar el chino. Además, nuestra evaluación de las técnicas de edición de conocimiento de vanguardia en este conjunto de datos revela un amplio margen para el avance en la rectificación del conocimiento chino. El código y el conjunto de datos están disponibles en https://github.com/zjunlp/EasyEdit.
English
While Large Language Models (LLMs) exhibit remarkable generative
capabilities, they are not without flaws, particularly in the form of
hallucinations. This issue is even more pronounced when LLMs are applied to
specific languages and domains. For example, LLMs may generate nonsense
information when handling Chinese ancient poetry, proverbs, or idioms, owing to
the lack of specific knowledge. To this end, this paper introduces a benchmark
for rectifying Chinese knowledge in LLMs via knowledge editing. Specifically,
we introduce a new Chinese dataset, CKnowEdit, by collecting seven type of
knowledge from various sources, including classical texts, idioms, and content
from Baidu Tieba Ruozhiba, thereby accounting for the unique polyphony,
antithesis, and logical constructs inherent in the Chinese language. Through
the analysis of this dataset, we uncover the challenges faced by current LLMs
in mastering Chinese. Furthermore, our evaluation of state-of-the-art knowledge
editing techniques on this dataset unveil the substantial scope for advancement
in the rectification of Chinese knowledge. Code and dataset are available at
https://github.com/zjunlp/EasyEdit.Summary
AI-Generated Summary