Les grands modèles de langage peuvent-ils comprendre le contexte ?
Can Large Language Models Understand Context?
February 1, 2024
Auteurs: Yilun Zhu, Joel Ruben Antony Moniz, Shruti Bhargava, Jiarui Lu, Dhivya Piraviperumal, Site Li, Yuan Zhang, Hong Yu, Bo-Hsiang Tseng
cs.AI
Résumé
Comprendre le contexte est essentiel pour appréhender le langage humain, une capacité que les modèles de langage de grande taille (LLMs) ont démontré de manière de plus en plus impressionnante. Cependant, bien que l'évaluation des LLMs couvre divers domaines du traitement du langage naturel, peu d'attention a été accordée à l'exploration de leur capacité linguistique à comprendre les caractéristiques contextuelles. Cet article introduit un benchmark de compréhension contextuelle en adaptant des jeux de données existants pour évaluer les modèles génératifs. Ce benchmark comprend quatre tâches distinctes et neuf jeux de données, tous incluant des prompts conçus pour évaluer la capacité des modèles à comprendre le contexte. Premièrement, nous évaluons la performance des LLMs dans le scénario de pré-entraînement par apprentissage en contexte. Les résultats expérimentaux indiquent que les modèles denses pré-entraînés peinent à comprendre les caractéristiques contextuelles plus subtiles par rapport aux modèles affinés de pointe. Deuxièmement, étant donné l'importance croissante de la compression des LLMs dans la recherche et les applications pratiques, nous évaluons la compréhension contextuelle des modèles quantifiés dans des configurations d'apprentissage en contexte. Nous constatons que la quantification post-entraînement sur 3 bits entraîne des réductions de performance variables sur notre benchmark. Nous menons une analyse approfondie de ces scénarios pour étayer nos résultats expérimentaux.
English
Understanding context is key to understanding human language, an ability
which Large Language Models (LLMs) have been increasingly seen to demonstrate
to an impressive extent. However, though the evaluation of LLMs encompasses
various domains within the realm of Natural Language Processing, limited
attention has been paid to probing their linguistic capability of understanding
contextual features. This paper introduces a context understanding benchmark by
adapting existing datasets to suit the evaluation of generative models. This
benchmark comprises of four distinct tasks and nine datasets, all featuring
prompts designed to assess the models' ability to understand context. First, we
evaluate the performance of LLMs under the in-context learning pretraining
scenario. Experimental results indicate that pre-trained dense models struggle
with understanding more nuanced contextual features when compared to
state-of-the-art fine-tuned models. Second, as LLM compression holds growing
significance in both research and real-world applications, we assess the
context understanding of quantized models under in-context-learning settings.
We find that 3-bit post-training quantization leads to varying degrees of
performance reduction on our benchmark. We conduct an extensive analysis of
these scenarios to substantiate our experimental results.