Vergleich von mentalen Zustandsdarstellungen in Sprachmodellen
Benchmarking Mental State Representations in Language Models
June 25, 2024
Autoren: Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling
cs.AI
Zusammenfassung
Obwohl zahlreiche Arbeiten die generative Leistung von Sprachmodellen (LMs) bei Aufgaben, die Theory of Mind-Überlegungen erfordern, bewertet haben, ist die Forschung zu den internen Repräsentationen mentaler Zustände der Modelle begrenzt. In jüngsten Arbeiten wurde durch Sondierung gezeigt, dass LMs Überzeugungen von sich selbst und anderen darstellen können. Diese Behauptungen werden jedoch von einer begrenzten Bewertung begleitet, was es schwierig macht zu beurteilen, wie mentale Zustandsrepräsentationen durch Modellentwurf und Trainingsentscheidungen beeinflusst werden. Wir berichten über einen umfangreichen Leistungsvergleich mit verschiedenen LM-Typen mit unterschiedlichen Modellgrößen, Feinabstimmungsansätzen und Prompt-Designs, um die Robustheit mentaler Zustandsrepräsentationen und Memorierungsprobleme innerhalb der Sonden zu untersuchen. Unsere Ergebnisse zeigen, dass die Qualität der internen Repräsentationen der Überzeugungen anderer durch Modelgröße und vor allem durch Feinabstimmung zunimmt. Wir sind die ersten, die untersuchen, wie Prompt-Variationen die Leistung bei Sondierungen von Theory of Mind-Aufgaben beeinflussen. Wir zeigen, dass die Repräsentationen der Modelle auf Prompt-Variationen empfindlich reagieren, selbst wenn solche Variationen vorteilhaft sein sollten. Schließlich ergänzen wir frühere Aktivierungsbearbeitungsexperimente zu Theory of Mind-Aufgaben und zeigen, dass es möglich ist, die Argumentationsleistung der Modelle zu verbessern, indem man ihre Aktivierungen lenkt, ohne dass eine Sonde trainiert werden muss.
English
While numerous works have assessed the generative performance of language
models (LMs) on tasks requiring Theory of Mind reasoning, research into the
models' internal representation of mental states remains limited. Recent work
has used probing to demonstrate that LMs can represent beliefs of themselves
and others. However, these claims are accompanied by limited evaluation, making
it difficult to assess how mental state representations are affected by model
design and training choices. We report an extensive benchmark with various LM
types with different model sizes, fine-tuning approaches, and prompt designs to
study the robustness of mental state representations and memorisation issues
within the probes. Our results show that the quality of models' internal
representations of the beliefs of others increases with model size and, more
crucially, with fine-tuning. We are the first to study how prompt variations
impact probing performance on theory of mind tasks. We demonstrate that models'
representations are sensitive to prompt variations, even when such variations
should be beneficial. Finally, we complement previous activation editing
experiments on Theory of Mind tasks and show that it is possible to improve
models' reasoning performance by steering their activations without the need to
train any probe.Summary
AI-Generated Summary