Os Grandes Modelos de Linguagem Podem Compreender o Contexto?

Resumo

Compreender o contexto é fundamental para entender a linguagem humana, uma habilidade que os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm demonstrado de forma cada vez mais impressionante. No entanto, embora a avaliação dos LLMs abranja diversos domínios no campo do Processamento de Linguagem Natural, pouca atenção tem sido dada à investigação de sua capacidade linguística de compreender características contextuais. Este artigo introduz um benchmark de compreensão de contexto, adaptando conjuntos de dados existentes para avaliar modelos generativos. Esse benchmark é composto por quatro tarefas distintas e nove conjuntos de dados, todos com prompts projetados para avaliar a capacidade dos modelos de entender o contexto. Primeiro, avaliamos o desempenho dos LLMs no cenário de pré-treinamento com aprendizado em contexto. Os resultados experimentais indicam que modelos densos pré-treinados têm dificuldade em compreender características contextuais mais sutis quando comparados a modelos ajustados de última geração. Segundo, como a compressão de LLMs tem ganhado crescente importância tanto na pesquisa quanto em aplicações do mundo real, avaliamos a compreensão de contexto de modelos quantizados em configurações de aprendizado em contexto. Descobrimos que a quantização pós-treinamento de 3 bits leva a diferentes graus de redução de desempenho em nosso benchmark. Realizamos uma análise extensa desses cenários para corroborar nossos resultados experimentais.

English

Understanding context is key to understanding human language, an ability which Large Language Models (LLMs) have been increasingly seen to demonstrate to an impressive extent. However, though the evaluation of LLMs encompasses various domains within the realm of Natural Language Processing, limited attention has been paid to probing their linguistic capability of understanding contextual features. This paper introduces a context understanding benchmark by adapting existing datasets to suit the evaluation of generative models. This benchmark comprises of four distinct tasks and nine datasets, all featuring prompts designed to assess the models' ability to understand context. First, we evaluate the performance of LLMs under the in-context learning pretraining scenario. Experimental results indicate that pre-trained dense models struggle with understanding more nuanced contextual features when compared to state-of-the-art fine-tuned models. Second, as LLM compression holds growing significance in both research and real-world applications, we assess the context understanding of quantized models under in-context-learning settings. We find that 3-bit post-training quantization leads to varying degrees of performance reduction on our benchmark. We conduct an extensive analysis of these scenarios to substantiate our experimental results.

Os Grandes Modelos de Linguagem Podem Compreender o Contexto?

Can Large Language Models Understand Context?

Resumo

Support