大規模言語モデルにおける中国語知識修正のベンチマーク化
Benchmarking Chinese Knowledge Rectification in Large Language Models
September 9, 2024
著者: Tianhe Lu, Jizhan Fang, Yunzhi Yao, Xin Xu, Ningyu Zhang, Huajun Chen
cs.AI
要旨
大規模言語モデル(LLM)は顕著な生成能力を示す一方、幻覚のような欠陥を抱えています。特に特定の言語や領域に適用されると、この問題はさらに顕著になります。例えば、LLMは中国の古詩、諺、または慣用句を処理する際に、特定の知識の不足から無意味な情報を生成する可能性があります。この論文では、この問題に対処するために、知識編集を通じてLLM内の中国の知識を修正するためのベンチマークを紹介します。具体的には、古典的なテキスト、慣用句、および百度貼吧若智吧などのさまざまな情報源から七種類の知識を収集し、中国語固有の多重性、対照法、および論理構造を考慮して、新しい中国語データセットであるCKnowEditを紹介します。このデータセットの分析により、現在のLLMが中国語を習得する際に直面する課題を明らかにします。さらに、このデータセットでの最先端の知識編集技術の評価により、中国語知識の修正における大きな進歩の余地が明らかになります。コードとデータセットはhttps://github.com/zjunlp/EasyEdit で入手可能です。
English
While Large Language Models (LLMs) exhibit remarkable generative
capabilities, they are not without flaws, particularly in the form of
hallucinations. This issue is even more pronounced when LLMs are applied to
specific languages and domains. For example, LLMs may generate nonsense
information when handling Chinese ancient poetry, proverbs, or idioms, owing to
the lack of specific knowledge. To this end, this paper introduces a benchmark
for rectifying Chinese knowledge in LLMs via knowledge editing. Specifically,
we introduce a new Chinese dataset, CKnowEdit, by collecting seven type of
knowledge from various sources, including classical texts, idioms, and content
from Baidu Tieba Ruozhiba, thereby accounting for the unique polyphony,
antithesis, and logical constructs inherent in the Chinese language. Through
the analysis of this dataset, we uncover the challenges faced by current LLMs
in mastering Chinese. Furthermore, our evaluation of state-of-the-art knowledge
editing techniques on this dataset unveil the substantial scope for advancement
in the rectification of Chinese knowledge. Code and dataset are available at
https://github.com/zjunlp/EasyEdit.