ChatPaper.aiChatPaper

Der pragmatische Verstand der Maschinen: Die Entstehung pragmatischer Kompetenz in großen Sprachmodellen nachzeichnen

The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models

May 24, 2025
Autoren: Kefan Yu, Qingcheng Zeng, Weihao Xuan, Wanxin Li, Jingyi Wu, Rob Voigt
cs.AI

Zusammenfassung

Aktuelle große Sprachmodelle (LLMs) haben aufkommende Fähigkeiten in Aufgaben der sozialen Intelligenz gezeigt, einschließlich der Auflösung von Implikaturen (Sravanthi et al. (2024)) und der Theory-of-Mind-Reasoning (Shapira et al. (2024)), die beide ein erhebliches pragmatisches Verständnis erfordern. Wie LLMs diese Kompetenz während des Trainingsprozesses erwerben, bleibt jedoch weitgehend unklar. In dieser Arbeit stellen wir ALTPRAG vor, einen Datensatz, der auf dem pragmatischen Konzept der Alternativen basiert und entwickelt wurde, um zu bewerten, ob LLMs in verschiedenen Trainingsphasen subtile Sprecherabsichten korrekt ableiten können. Jede Instanz kombiniert zwei kontextuell angemessene, aber pragmatisch unterschiedliche Fortsetzungen, was eine feinkörnige Bewertung sowohl der pragmatischen Interpretation als auch des kontrastiven Denkens ermöglicht. Wir evaluieren systematisch 22 LLMs über wichtige Trainingsphasen hinweg: Pre-Training, überwachtes Fein-Tuning (SFT) und Präferenzoptimierung, um die Entwicklung der pragmatischen Kompetenz zu untersuchen. Unsere Ergebnisse zeigen, dass selbst Basismodelle eine bemerkenswerte Sensibilität für pragmatische Hinweise aufweisen, die sich mit zunehmender Modell- und Datenmenge kontinuierlich verbessert. Darüber hinaus tragen SFT und RLHF zu weiteren Fortschritten bei, insbesondere im kognitiv-pragmatischen Denken. Diese Erkenntnisse unterstreichen die pragmatische Kompetenz als eine emergente und kompositionelle Eigenschaft des LLM-Trainings und bieten neue Einblicke für die Ausrichtung von Modellen an menschlichen Kommunikationsnormen.
English
Current large language models (LLMs) have demonstrated emerging capabilities in social intelligence tasks, including implicature resolution (Sravanthi et al. (2024)) and theory-of-mind reasoning (Shapira et al. (2024)), both of which require substantial pragmatic understanding. However, how LLMs acquire this competence throughout the training process remains poorly understood. In this work, we introduce ALTPRAG, a dataset grounded in the pragmatic concept of alternatives, designed to evaluate whether LLMs at different training stages can accurately infer nuanced speaker intentions. Each instance pairs two contextually appropriate but pragmatically distinct continuations, enabling fine-grained assessment of both pragmatic interpretation and contrastive reasoning. We systematically evaluate 22 LLMs across key training stages: pre-training, supervised fine-tuning (SFT), and preference optimization, to examine the development of pragmatic competence. Our results show that even base models exhibit notable sensitivity to pragmatic cues, which improves consistently with increases in model and data scale. Additionally, SFT and RLHF contribute further gains, particularly in cognitive-pragmatic reasoning. These findings highlight pragmatic competence as an emergent and compositional property of LLM training and offer new insights for aligning models with human communicative norms.

Summary

AI-Generated Summary

PDF22May 28, 2025