Benchmarken van Mentale Toestandsrepresentaties in Taalmodellen
Benchmarking Mental State Representations in Language Models
June 25, 2024
Auteurs: Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling
cs.AI
Samenvatting
Hoewel talrijke studies de generatieve prestaties van taalmodelen (LMs) hebben beoordeeld op taken die Theory of Mind-redenering vereisen, blijft onderzoek naar de interne representatie van mentale toestanden door deze modellen beperkt. Recent werk heeft gebruik gemaakt van probing om aan te tonen dat LMs overtuigingen van zichzelf en anderen kunnen representeren. Deze beweringen gaan echter gepaard met beperkte evaluatie, waardoor het moeilijk is om te beoordelen hoe representaties van mentale toestanden worden beïnvloed door modelontwerp en trainingskeuzes. Wij presenteren een uitgebreide benchmark met verschillende LM-types met verschillende modelgroottes, fine-tuning benaderingen en promptontwerpen om de robuustheid van mentale toestandenrepresentaties en memorisatieproblemen binnen de probes te bestuderen. Onze resultaten tonen aan dat de kwaliteit van de interne representaties van de overtuigingen van anderen door modellen toeneemt met de modelgrootte en, nog crucialer, met fine-tuning. Wij zijn de eersten die bestuderen hoe promptvariaties de prestaties van probing op Theory of Mind-taken beïnvloeden. We demonstreren dat de representaties van modellen gevoelig zijn voor promptvariaties, zelfs wanneer dergelijke variaties gunstig zouden moeten zijn. Ten slotte vullen we eerdere experimenten met activatiebewerking op Theory of Mind-taken aan en tonen we aan dat het mogelijk is om de redeneerprestaties van modellen te verbeteren door hun activaties te sturen zonder dat er een probe getraind hoeft te worden.
English
While numerous works have assessed the generative performance of language
models (LMs) on tasks requiring Theory of Mind reasoning, research into the
models' internal representation of mental states remains limited. Recent work
has used probing to demonstrate that LMs can represent beliefs of themselves
and others. However, these claims are accompanied by limited evaluation, making
it difficult to assess how mental state representations are affected by model
design and training choices. We report an extensive benchmark with various LM
types with different model sizes, fine-tuning approaches, and prompt designs to
study the robustness of mental state representations and memorisation issues
within the probes. Our results show that the quality of models' internal
representations of the beliefs of others increases with model size and, more
crucially, with fine-tuning. We are the first to study how prompt variations
impact probing performance on theory of mind tasks. We demonstrate that models'
representations are sensitive to prompt variations, even when such variations
should be beneficial. Finally, we complement previous activation editing
experiments on Theory of Mind tasks and show that it is possible to improve
models' reasoning performance by steering their activations without the need to
train any probe.