大規模言語モデルは文脈を理解できるのか?
Can Large Language Models Understand Context?
February 1, 2024
著者: Yilun Zhu, Joel Ruben Antony Moniz, Shruti Bhargava, Jiarui Lu, Dhivya Piraviperumal, Site Li, Yuan Zhang, Hong Yu, Bo-Hsiang Tseng
cs.AI
要旨
文脈を理解することは人間の言語を理解する上で鍵となる能力であり、大規模言語モデル(LLMs)がこの能力を驚くべき程度に示すことがますます確認されています。しかし、LLMsの評価は自然言語処理の領域内で様々なドメインを網羅しているものの、文脈的特徴を理解するという言語能力を探ることに限られた注意しか払われてきませんでした。本論文では、生成モデルの評価に適した形で既存のデータセットを改変し、文脈理解ベンチマークを導入します。このベンチマークは、モデルの文脈理解能力を評価するために設計されたプロンプトを特徴とする4つの異なるタスクと9つのデータセットで構成されています。まず、文脈内学習の事前学習シナリオにおけるLLMsの性能を評価します。実験結果から、事前学習された密なモデルは、最先端のファインチューニングされたモデルと比較して、より微妙な文脈的特徴を理解するのに苦労することが示されています。次に、LLMの圧縮が研究と実世界のアプリケーションの両方で重要性を増していることから、文脈内学習設定における量子化モデルの文脈理解を評価します。3ビットの学習後量子化は、我々のベンチマークにおいて様々な程度の性能低下を引き起こすことがわかりました。これらのシナリオについて広範な分析を行い、実験結果を裏付けます。
English
Understanding context is key to understanding human language, an ability
which Large Language Models (LLMs) have been increasingly seen to demonstrate
to an impressive extent. However, though the evaluation of LLMs encompasses
various domains within the realm of Natural Language Processing, limited
attention has been paid to probing their linguistic capability of understanding
contextual features. This paper introduces a context understanding benchmark by
adapting existing datasets to suit the evaluation of generative models. This
benchmark comprises of four distinct tasks and nine datasets, all featuring
prompts designed to assess the models' ability to understand context. First, we
evaluate the performance of LLMs under the in-context learning pretraining
scenario. Experimental results indicate that pre-trained dense models struggle
with understanding more nuanced contextual features when compared to
state-of-the-art fine-tuned models. Second, as LLM compression holds growing
significance in both research and real-world applications, we assess the
context understanding of quantized models under in-context-learning settings.
We find that 3-bit post-training quantization leads to varying degrees of
performance reduction on our benchmark. We conduct an extensive analysis of
these scenarios to substantiate our experimental results.