Могут ли крупные языковые модели понимать контекст?
Can Large Language Models Understand Context?
February 1, 2024
Авторы: Yilun Zhu, Joel Ruben Antony Moniz, Shruti Bhargava, Jiarui Lu, Dhivya Piraviperumal, Site Li, Yuan Zhang, Hong Yu, Bo-Hsiang Tseng
cs.AI
Аннотация
Понимание контекста является ключевым для понимания человеческого языка, способность, которую крупные языковые модели (LLM) демонстрируют всё более впечатляющим образом. Однако, хотя оценка LLM охватывает различные области в рамках обработки естественного языка, ограниченное внимание уделялось исследованию их лингвистической способности понимать контекстные особенности. В данной статье представлен бенчмарк для оценки понимания контекста, адаптированный из существующих наборов данных для оценки генеративных моделей. Этот бенчмарк включает четыре различные задачи и девять наборов данных, все из которых содержат промпты, предназначенные для оценки способности моделей понимать контекст. Во-первых, мы оцениваем производительность LLM в сценарии предварительного обучения с использованием контекстного обучения. Экспериментальные результаты показывают, что предварительно обученные плотные модели испытывают трудности с пониманием более тонких контекстных особенностей по сравнению с современными тонко настроенными моделями. Во-вторых, учитывая растущую значимость сжатия LLM как в исследованиях, так и в реальных приложениях, мы оцениваем понимание контекста квантованных моделей в условиях контекстного обучения. Мы обнаруживаем, что 3-битное посттренировочное квантование приводит к различной степени снижения производительности на нашем бенчмарке. Мы проводим детальный анализ этих сценариев, чтобы подтвердить наши экспериментальные результаты.
English
Understanding context is key to understanding human language, an ability
which Large Language Models (LLMs) have been increasingly seen to demonstrate
to an impressive extent. However, though the evaluation of LLMs encompasses
various domains within the realm of Natural Language Processing, limited
attention has been paid to probing their linguistic capability of understanding
contextual features. This paper introduces a context understanding benchmark by
adapting existing datasets to suit the evaluation of generative models. This
benchmark comprises of four distinct tasks and nine datasets, all featuring
prompts designed to assess the models' ability to understand context. First, we
evaluate the performance of LLMs under the in-context learning pretraining
scenario. Experimental results indicate that pre-trained dense models struggle
with understanding more nuanced contextual features when compared to
state-of-the-art fine-tuned models. Second, as LLM compression holds growing
significance in both research and real-world applications, we assess the
context understanding of quantized models under in-context-learning settings.
We find that 3-bit post-training quantization leads to varying degrees of
performance reduction on our benchmark. We conduct an extensive analysis of
these scenarios to substantiate our experimental results.