대형 언어 모델은 문맥을 이해할 수 있는가?
Can Large Language Models Understand Context?
February 1, 2024
저자: Yilun Zhu, Joel Ruben Antony Moniz, Shruti Bhargava, Jiarui Lu, Dhivya Piraviperumal, Site Li, Yuan Zhang, Hong Yu, Bo-Hsiang Tseng
cs.AI
초록
문맥을 이해하는 것은 인간 언어를 이해하는 데 있어 핵심적인 능력이며, 대규모 언어 모델(LLMs)이 이러한 능력을 점점 더 인상적인 수준으로 보여주고 있다. 그러나 LLMs의 평가는 자연어 처리 영역 내 다양한 도메인을 포괄하지만, 문맥적 특징을 이해하는 언어적 능력을 탐구하는 데는 제한된 관심만이 주어져 왔다. 본 논문은 생성 모델 평가에 적합하도록 기존 데이터셋을 조정하여 문맥 이해 벤치마크를 소개한다. 이 벤치마크는 모델의 문맥 이해 능력을 평가하기 위해 설계된 프롬프트를 포함한 네 가지 구별된 작업과 아홉 개의 데이터셋으로 구성된다. 먼저, 문맥 내 학습 사전 학습 시나리오에서 LLMs의 성능을 평가한다. 실험 결과에 따르면, 사전 학습된 밀집 모델은 최신 미세 조정 모델에 비해 더 미묘한 문맥적 특징을 이해하는 데 어려움을 겪는 것으로 나타났다. 둘째, LLM 압축이 연구 및 실제 응용 분야에서 점점 더 중요한 의미를 갖게 됨에 따라, 문맥 내 학습 설정에서 양자화된 모델의 문맥 이해 능력을 평가한다. 3비트 사후 학습 양자화가 우리의 벤치마크에서 다양한 정도의 성능 저하를 초래한다는 것을 발견했다. 이러한 시나리오에 대한 광범위한 분석을 수행하여 실험 결과를 입증한다.
English
Understanding context is key to understanding human language, an ability
which Large Language Models (LLMs) have been increasingly seen to demonstrate
to an impressive extent. However, though the evaluation of LLMs encompasses
various domains within the realm of Natural Language Processing, limited
attention has been paid to probing their linguistic capability of understanding
contextual features. This paper introduces a context understanding benchmark by
adapting existing datasets to suit the evaluation of generative models. This
benchmark comprises of four distinct tasks and nine datasets, all featuring
prompts designed to assess the models' ability to understand context. First, we
evaluate the performance of LLMs under the in-context learning pretraining
scenario. Experimental results indicate that pre-trained dense models struggle
with understanding more nuanced contextual features when compared to
state-of-the-art fine-tuned models. Second, as LLM compression holds growing
significance in both research and real-world applications, we assess the
context understanding of quantized models under in-context-learning settings.
We find that 3-bit post-training quantization leads to varying degrees of
performance reduction on our benchmark. We conduct an extensive analysis of
these scenarios to substantiate our experimental results.