ChatPaper.aiChatPaper

Évaluation des Représentations des États Mentaux dans les Modèles de Langage

Benchmarking Mental State Representations in Language Models

June 25, 2024
Auteurs: Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling
cs.AI

Résumé

Alors que de nombreux travaux ont évalué les performances génératives des modèles de langage (LMs) sur des tâches nécessitant un raisonnement de théorie de l'esprit, la recherche sur la représentation interne des états mentaux par ces modèles reste limitée. Des travaux récents ont utilisé des techniques de sondage pour démontrer que les LMs peuvent représenter les croyances d'eux-mêmes et des autres. Cependant, ces affirmations s'accompagnent d'une évaluation limitée, rendant difficile l'évaluation de la manière dont les représentations des états mentaux sont influencées par la conception du modèle et les choix d'entraînement. Nous présentons un benchmark étendu avec divers types de LMs de tailles différentes, des approches de fine-tuning variées et des designs de prompts pour étudier la robustesse des représentations des états mentaux et les problèmes de mémorisation dans les sondages. Nos résultats montrent que la qualité des représentations internes des croyances des autres augmente avec la taille du modèle et, plus crucialement, avec le fine-tuning. Nous sommes les premiers à étudier comment les variations de prompts impactent les performances de sondage sur les tâches de théorie de l'esprit. Nous démontrons que les représentations des modèles sont sensibles aux variations de prompts, même lorsque ces variations devraient être bénéfiques. Enfin, nous complétons les expériences précédentes d'édition d'activations sur les tâches de théorie de l'esprit et montrons qu'il est possible d'améliorer les performances de raisonnement des modèles en orientant leurs activations sans avoir besoin d'entraîner de sonde.
English
While numerous works have assessed the generative performance of language models (LMs) on tasks requiring Theory of Mind reasoning, research into the models' internal representation of mental states remains limited. Recent work has used probing to demonstrate that LMs can represent beliefs of themselves and others. However, these claims are accompanied by limited evaluation, making it difficult to assess how mental state representations are affected by model design and training choices. We report an extensive benchmark with various LM types with different model sizes, fine-tuning approaches, and prompt designs to study the robustness of mental state representations and memorisation issues within the probes. Our results show that the quality of models' internal representations of the beliefs of others increases with model size and, more crucially, with fine-tuning. We are the first to study how prompt variations impact probing performance on theory of mind tasks. We demonstrate that models' representations are sensitive to prompt variations, even when such variations should be beneficial. Finally, we complement previous activation editing experiments on Theory of Mind tasks and show that it is possible to improve models' reasoning performance by steering their activations without the need to train any probe.

Summary

AI-Generated Summary

PDF31November 29, 2024