I Modelli Linguistici di Grandi Dimensioni Possono Comprendere il Contesto?
Can Large Language Models Understand Context?
February 1, 2024
Autori: Yilun Zhu, Joel Ruben Antony Moniz, Shruti Bhargava, Jiarui Lu, Dhivya Piraviperumal, Site Li, Yuan Zhang, Hong Yu, Bo-Hsiang Tseng
cs.AI
Abstract
Comprendere il contesto è fondamentale per comprendere il linguaggio umano, un'abilità che i Modelli Linguistici di Grande Dimensione (LLMs) hanno dimostrato sempre più in modo impressionante. Tuttavia, sebbene la valutazione degli LLMs copra vari domini all'interno dell'elaborazione del linguaggio naturale, è stata prestata un'attenzione limitata all'indagine della loro capacità linguistica di comprendere le caratteristiche contestuali. Questo articolo introduce un benchmark per la comprensione del contesto adattando dataset esistenti per valutare i modelli generativi. Questo benchmark comprende quattro compiti distinti e nove dataset, tutti caratterizzati da prompt progettati per valutare la capacità dei modelli di comprendere il contesto. In primo luogo, valutiamo le prestazioni degli LLMs nello scenario di pre-addestramento con apprendimento in contesto. I risultati sperimentali indicano che i modelli densi pre-addestrati faticano a comprendere caratteristiche contestuali più sfumate rispetto ai modelli fine-tuned all'avanguardia. In secondo luogo, poiché la compressione degli LLMs sta acquisendo un'importanza crescente sia nella ricerca che nelle applicazioni reali, valutiamo la comprensione del contesto nei modelli quantizzati in contesti di apprendimento in contesto. Scopriamo che la quantizzazione post-addestramento a 3 bit porta a vari gradi di riduzione delle prestazioni sul nostro benchmark. Conduciamo un'analisi approfondita di questi scenari per corroborare i nostri risultati sperimentali.
English
Understanding context is key to understanding human language, an ability
which Large Language Models (LLMs) have been increasingly seen to demonstrate
to an impressive extent. However, though the evaluation of LLMs encompasses
various domains within the realm of Natural Language Processing, limited
attention has been paid to probing their linguistic capability of understanding
contextual features. This paper introduces a context understanding benchmark by
adapting existing datasets to suit the evaluation of generative models. This
benchmark comprises of four distinct tasks and nine datasets, all featuring
prompts designed to assess the models' ability to understand context. First, we
evaluate the performance of LLMs under the in-context learning pretraining
scenario. Experimental results indicate that pre-trained dense models struggle
with understanding more nuanced contextual features when compared to
state-of-the-art fine-tuned models. Second, as LLM compression holds growing
significance in both research and real-world applications, we assess the
context understanding of quantized models under in-context-learning settings.
We find that 3-bit post-training quantization leads to varying degrees of
performance reduction on our benchmark. We conduct an extensive analysis of
these scenarios to substantiate our experimental results.