Können große Sprachmodelle Kontext verstehen?
Can Large Language Models Understand Context?
February 1, 2024
Autoren: Yilun Zhu, Joel Ruben Antony Moniz, Shruti Bhargava, Jiarui Lu, Dhivya Piraviperumal, Site Li, Yuan Zhang, Hong Yu, Bo-Hsiang Tseng
cs.AI
Zusammenfassung
Das Verständnis von Kontext ist entscheidend für das Verständnis der menschlichen Sprache, eine Fähigkeit, die Large Language Models (LLMs) zunehmend in beeindruckendem Maße demonstrieren. Obwohl die Bewertung von LLMs verschiedene Bereiche innerhalb des Natural Language Processing umfasst, wurde der Untersuchung ihrer linguistischen Fähigkeit, kontextuelle Merkmale zu verstehen, bisher nur begrenzte Aufmerksamkeit geschenkt. Dieses Papier stellt einen Benchmark für das Kontextverständnis vor, indem bestehende Datensätze angepasst werden, um die Bewertung generativer Modelle zu ermöglichen. Dieser Benchmark besteht aus vier verschiedenen Aufgaben und neun Datensätzen, die alle Prompts enthalten, die darauf abzielen, die Fähigkeit der Modelle zum Verständnis von Kontext zu bewerten. Zunächst bewerten wir die Leistung von LLMs im Szenario des In-Context-Learning-Pretrainings. Die experimentellen Ergebnisse zeigen, dass vortrainierte dichte Modelle Schwierigkeiten haben, feinere kontextuelle Merkmale zu verstehen, im Vergleich zu state-of-the-art feinabgestimmten Modellen. Zweitens, da die Kompression von LLMs in Forschung und praktischen Anwendungen zunehmend an Bedeutung gewinnt, bewerten wir das Kontextverständnis quantisierter Modelle unter In-Context-Learning-Bedingungen. Wir stellen fest, dass eine 3-Bit-Post-Training-Quantisierung zu unterschiedlichen Graden von Leistungsreduktionen in unserem Benchmark führt. Wir führen eine umfassende Analyse dieser Szenarien durch, um unsere experimentellen Ergebnisse zu untermauern.
English
Understanding context is key to understanding human language, an ability
which Large Language Models (LLMs) have been increasingly seen to demonstrate
to an impressive extent. However, though the evaluation of LLMs encompasses
various domains within the realm of Natural Language Processing, limited
attention has been paid to probing their linguistic capability of understanding
contextual features. This paper introduces a context understanding benchmark by
adapting existing datasets to suit the evaluation of generative models. This
benchmark comprises of four distinct tasks and nine datasets, all featuring
prompts designed to assess the models' ability to understand context. First, we
evaluate the performance of LLMs under the in-context learning pretraining
scenario. Experimental results indicate that pre-trained dense models struggle
with understanding more nuanced contextual features when compared to
state-of-the-art fine-tuned models. Second, as LLM compression holds growing
significance in both research and real-world applications, we assess the
context understanding of quantized models under in-context-learning settings.
We find that 3-bit post-training quantization leads to varying degrees of
performance reduction on our benchmark. We conduct an extensive analysis of
these scenarios to substantiate our experimental results.