¿Pueden los Modelos de Lenguaje de Gran Escala Comprender el Contexto?
Can Large Language Models Understand Context?
February 1, 2024
Autores: Yilun Zhu, Joel Ruben Antony Moniz, Shruti Bhargava, Jiarui Lu, Dhivya Piraviperumal, Site Li, Yuan Zhang, Hong Yu, Bo-Hsiang Tseng
cs.AI
Resumen
Comprender el contexto es clave para entender el lenguaje humano, una habilidad que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado cada vez más de manera impresionante. Sin embargo, aunque la evaluación de los LLMs abarca diversos dominios dentro del ámbito del Procesamiento del Lenguaje Natural, se ha prestado poca atención a examinar su capacidad lingüística para comprender características contextuales. Este artículo introduce un punto de referencia para la comprensión del contexto adaptando conjuntos de datos existentes para evaluar modelos generativos. Este punto de referencia consta de cuatro tareas distintas y nueve conjuntos de datos, todos con indicaciones diseñadas para evaluar la capacidad de los modelos para entender el contexto. Primero, evaluamos el rendimiento de los LLMs en el escenario de aprendizaje en contexto durante la fase de preentrenamiento. Los resultados experimentales indican que los modelos densos preentrenados tienen dificultades para comprender características contextuales más sutiles en comparación con los modelos ajustados más avanzados. Segundo, dado que la compresión de LLMs adquiere una importancia creciente tanto en la investigación como en aplicaciones del mundo real, evaluamos la comprensión del contexto en modelos cuantificados bajo configuraciones de aprendizaje en contexto. Descubrimos que la cuantización posterior al entrenamiento de 3 bits conduce a reducciones variables en el rendimiento en nuestro punto de referencia. Realizamos un análisis exhaustivo de estos escenarios para respaldar nuestros resultados experimentales.
English
Understanding context is key to understanding human language, an ability
which Large Language Models (LLMs) have been increasingly seen to demonstrate
to an impressive extent. However, though the evaluation of LLMs encompasses
various domains within the realm of Natural Language Processing, limited
attention has been paid to probing their linguistic capability of understanding
contextual features. This paper introduces a context understanding benchmark by
adapting existing datasets to suit the evaluation of generative models. This
benchmark comprises of four distinct tasks and nine datasets, all featuring
prompts designed to assess the models' ability to understand context. First, we
evaluate the performance of LLMs under the in-context learning pretraining
scenario. Experimental results indicate that pre-trained dense models struggle
with understanding more nuanced contextual features when compared to
state-of-the-art fine-tuned models. Second, as LLM compression holds growing
significance in both research and real-world applications, we assess the
context understanding of quantized models under in-context-learning settings.
We find that 3-bit post-training quantization leads to varying degrees of
performance reduction on our benchmark. We conduct an extensive analysis of
these scenarios to substantiate our experimental results.