ChatPaper.aiChatPaper

Kunnen grote taalmodellen context begrijpen?

Can Large Language Models Understand Context?

February 1, 2024
Auteurs: Yilun Zhu, Joel Ruben Antony Moniz, Shruti Bhargava, Jiarui Lu, Dhivya Piraviperumal, Site Li, Yuan Zhang, Hong Yu, Bo-Hsiang Tseng
cs.AI

Samenvatting

Het begrijpen van context is essentieel voor het begrijpen van menselijke taal, een vaardigheid waarvan is gebleken dat Large Language Models (LLM's) deze in toenemende mate op indrukwekkende wijze demonstreren. Hoewel de evaluatie van LLM's verschillende domeinen binnen het gebied van Natural Language Processing omvat, is er beperkte aandacht besteed aan het onderzoeken van hun linguïstische vermogen om contextuele kenmerken te begrijpen. Dit artikel introduceert een benchmark voor contextbegrip door bestaande datasets aan te passen voor de evaluatie van generatieve modellen. Deze benchmark bestaat uit vier verschillende taken en negen datasets, allemaal voorzien van prompts die zijn ontworpen om het vermogen van de modellen om context te begrijpen te beoordelen. Ten eerste evalueren we de prestaties van LLM's onder het in-context learning pretrainingsscenario. Experimentele resultaten geven aan dat vooraf getrainde dense modellen moeite hebben met het begrijpen van meer genuanceerde contextuele kenmerken in vergelijking met state-of-the-art fijn afgestemde modellen. Ten tweede, aangezien LLM-compressie een groeiend belang heeft in zowel onderzoek als praktische toepassingen, beoordelen we het contextbegrip van gekwantiseerde modellen onder in-context-learning instellingen. We constateren dat 3-bit post-training kwantisatie leidt tot verschillende gradaties van prestatievermindering op onze benchmark. We voeren een uitgebreide analyse van deze scenario's uit om onze experimentele resultaten te onderbouwen.
English
Understanding context is key to understanding human language, an ability which Large Language Models (LLMs) have been increasingly seen to demonstrate to an impressive extent. However, though the evaluation of LLMs encompasses various domains within the realm of Natural Language Processing, limited attention has been paid to probing their linguistic capability of understanding contextual features. This paper introduces a context understanding benchmark by adapting existing datasets to suit the evaluation of generative models. This benchmark comprises of four distinct tasks and nine datasets, all featuring prompts designed to assess the models' ability to understand context. First, we evaluate the performance of LLMs under the in-context learning pretraining scenario. Experimental results indicate that pre-trained dense models struggle with understanding more nuanced contextual features when compared to state-of-the-art fine-tuned models. Second, as LLM compression holds growing significance in both research and real-world applications, we assess the context understanding of quantized models under in-context-learning settings. We find that 3-bit post-training quantization leads to varying degrees of performance reduction on our benchmark. We conduct an extensive analysis of these scenarios to substantiate our experimental results.
PDF231December 15, 2024