A Mente Pragmática das Máquinas: Rastreando a Emergência da Competência Pragmática em Modelos de Linguagem de Grande Escala
The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models
May 24, 2025
Autores: Kefan Yu, Qingcheng Zeng, Weihao Xuan, Wanxin Li, Jingyi Wu, Rob Voigt
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) atuais demonstraram capacidades emergentes em tarefas de inteligência social, incluindo resolução de implicaturas (Sravanthi et al. (2024)) e raciocínio sobre teoria da mente (Shapira et al. (2024)), ambas as quais exigem um entendimento pragmático substancial. No entanto, como os LLMs adquirem essa competência ao longo do processo de treinamento ainda é pouco compreendido. Neste trabalho, introduzimos o ALTPRAG, um conjunto de dados baseado no conceito pragmático de alternativas, projetado para avaliar se LLMs em diferentes estágios de treinamento podem inferir com precisão as intenções sutis do falante. Cada instância emparelha duas continuações contextualmente apropriadas, mas pragmaticamente distintas, permitindo uma avaliação refinada tanto da interpretação pragmática quanto do raciocínio contrastivo. Avaliamos sistematicamente 22 LLMs em estágios-chave do treinamento: pré-treinamento, ajuste fino supervisionado (SFT) e otimização de preferências, para examinar o desenvolvimento da competência pragmática. Nossos resultados mostram que mesmo os modelos base exibem uma sensibilidade notável a pistas pragmáticas, que melhora consistentemente com o aumento da escala do modelo e dos dados. Além disso, o SFT e o RLHF contribuem para ganhos adicionais, particularmente no raciocínio cognitivo-pragmático. Essas descobertas destacam a competência pragmática como uma propriedade emergente e composicional do treinamento de LLMs e oferecem novas perspectivas para alinhar os modelos com as normas comunicativas humanas.
English
Current large language models (LLMs) have demonstrated emerging capabilities
in social intelligence tasks, including implicature resolution (Sravanthi et
al. (2024)) and theory-of-mind reasoning (Shapira et al. (2024)), both of which
require substantial pragmatic understanding. However, how LLMs acquire this
competence throughout the training process remains poorly understood. In this
work, we introduce ALTPRAG, a dataset grounded in the pragmatic concept of
alternatives, designed to evaluate whether LLMs at different training stages
can accurately infer nuanced speaker intentions. Each instance pairs two
contextually appropriate but pragmatically distinct continuations, enabling
fine-grained assessment of both pragmatic interpretation and contrastive
reasoning. We systematically evaluate 22 LLMs across key training stages:
pre-training, supervised fine-tuning (SFT), and preference optimization, to
examine the development of pragmatic competence. Our results show that even
base models exhibit notable sensitivity to pragmatic cues, which improves
consistently with increases in model and data scale. Additionally, SFT and RLHF
contribute further gains, particularly in cognitive-pragmatic reasoning. These
findings highlight pragmatic competence as an emergent and compositional
property of LLM training and offer new insights for aligning models with human
communicative norms.