Het benchmarken van Chinese kenniscorrectie in grote taalmodellen
Benchmarking Chinese Knowledge Rectification in Large Language Models
September 9, 2024
Auteurs: Tianhe Lu, Jizhan Fang, Yunzhi Yao, Xin Xu, Ningyu Zhang, Huajun Chen
cs.AI
Samenvatting
Hoewel Grote Taalmodellen (LLM's) opmerkelijke generatieve capaciteiten vertonen, zijn ze niet zonder gebreken, met name in de vorm van hallucinaties. Dit probleem is nog duidelijker wanneer LLM's worden toegepast op specifieke talen en domeinen. Zo kunnen LLM's bijvoorbeeld onzin genereren bij het omgaan met oude Chinese poëzie, spreekwoorden of uitdrukkingen, als gevolg van een gebrek aan specifieke kennis. Om dit aan te pakken, introduceert dit artikel een benchmark voor het corrigeren van Chinese kennis in LLM's via kennisbewerking. Specifiek introduceren we een nieuwe Chinese dataset, CKnowEdit, door zeven soorten kennis te verzamelen uit verschillende bronnen, waaronder klassieke teksten, uitdrukkingen en inhoud van Baidu Tieba Ruozhiba, waarbij rekening wordt gehouden met de unieke meerstemmigheid, antithese en logische constructies inherent aan de Chinese taal. Door de analyse van deze dataset onthullen we de uitdagingen waarmee huidige LLM's worden geconfronteerd bij het beheersen van het Chinees. Bovendien tonen onze evaluaties van toonaangevende kennisbewerkingstechnieken op deze dataset de aanzienlijke mogelijkheden voor vooruitgang in het corrigeren van Chinese kennis. De code en dataset zijn beschikbaar op https://github.com/zjunlp/EasyEdit.
English
While Large Language Models (LLMs) exhibit remarkable generative
capabilities, they are not without flaws, particularly in the form of
hallucinations. This issue is even more pronounced when LLMs are applied to
specific languages and domains. For example, LLMs may generate nonsense
information when handling Chinese ancient poetry, proverbs, or idioms, owing to
the lack of specific knowledge. To this end, this paper introduces a benchmark
for rectifying Chinese knowledge in LLMs via knowledge editing. Specifically,
we introduce a new Chinese dataset, CKnowEdit, by collecting seven type of
knowledge from various sources, including classical texts, idioms, and content
from Baidu Tieba Ruozhiba, thereby accounting for the unique polyphony,
antithesis, and logical constructs inherent in the Chinese language. Through
the analysis of this dataset, we uncover the challenges faced by current LLMs
in mastering Chinese. Furthermore, our evaluation of state-of-the-art knowledge
editing techniques on this dataset unveil the substantial scope for advancement
in the rectification of Chinese knowledge. Code and dataset are available at
https://github.com/zjunlp/EasyEdit.Summary
AI-Generated Summary