Os Grandes Modelos de Linguagem Podem Compreender o Contexto?
Can Large Language Models Understand Context?
February 1, 2024
Autores: Yilun Zhu, Joel Ruben Antony Moniz, Shruti Bhargava, Jiarui Lu, Dhivya Piraviperumal, Site Li, Yuan Zhang, Hong Yu, Bo-Hsiang Tseng
cs.AI
Resumo
Compreender o contexto é fundamental para entender a linguagem humana, uma habilidade que os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm demonstrado de forma cada vez mais impressionante. No entanto, embora a avaliação dos LLMs abranja diversos domínios no campo do Processamento de Linguagem Natural, pouca atenção tem sido dada à investigação de sua capacidade linguística de compreender características contextuais. Este artigo introduz um benchmark de compreensão de contexto, adaptando conjuntos de dados existentes para avaliar modelos generativos. Esse benchmark é composto por quatro tarefas distintas e nove conjuntos de dados, todos com prompts projetados para avaliar a capacidade dos modelos de entender o contexto. Primeiro, avaliamos o desempenho dos LLMs no cenário de pré-treinamento com aprendizado em contexto. Os resultados experimentais indicam que modelos densos pré-treinados têm dificuldade em compreender características contextuais mais sutis quando comparados a modelos ajustados de última geração. Segundo, como a compressão de LLMs tem ganhado crescente importância tanto na pesquisa quanto em aplicações do mundo real, avaliamos a compreensão de contexto de modelos quantizados em configurações de aprendizado em contexto. Descobrimos que a quantização pós-treinamento de 3 bits leva a diferentes graus de redução de desempenho em nosso benchmark. Realizamos uma análise extensa desses cenários para corroborar nossos resultados experimentais.
English
Understanding context is key to understanding human language, an ability
which Large Language Models (LLMs) have been increasingly seen to demonstrate
to an impressive extent. However, though the evaluation of LLMs encompasses
various domains within the realm of Natural Language Processing, limited
attention has been paid to probing their linguistic capability of understanding
contextual features. This paper introduces a context understanding benchmark by
adapting existing datasets to suit the evaluation of generative models. This
benchmark comprises of four distinct tasks and nine datasets, all featuring
prompts designed to assess the models' ability to understand context. First, we
evaluate the performance of LLMs under the in-context learning pretraining
scenario. Experimental results indicate that pre-trained dense models struggle
with understanding more nuanced contextual features when compared to
state-of-the-art fine-tuned models. Second, as LLM compression holds growing
significance in both research and real-world applications, we assess the
context understanding of quantized models under in-context-learning settings.
We find that 3-bit post-training quantization leads to varying degrees of
performance reduction on our benchmark. We conduct an extensive analysis of
these scenarios to substantiate our experimental results.