Evaluación de Representaciones de Estados Mentales en Modelos de Lenguaje
Benchmarking Mental State Representations in Language Models
June 25, 2024
Autores: Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling
cs.AI
Resumen
Si bien numerosos trabajos han evaluado el rendimiento generativo de los modelos de lenguaje (LMs) en tareas que requieren razonamiento sobre la Teoría de la Mente, la investigación sobre la representación interna de los estados mentales en estos modelos sigue siendo limitada. Trabajos recientes han utilizado técnicas de sondeo (probing) para demostrar que los LMs pueden representar creencias propias y ajenas. Sin embargo, estas afirmaciones están acompañadas de una evaluación limitada, lo que dificulta determinar cómo las representaciones de los estados mentales se ven afectadas por el diseño del modelo y las decisiones de entrenamiento. Presentamos un extenso benchmark con varios tipos de LMs de diferentes tamaños, enfoques de fine-tuning y diseños de prompts para estudiar la robustez de las representaciones de estados mentales y los problemas de memorización en los sondeos. Nuestros resultados muestran que la calidad de las representaciones internas de las creencias ajenas en los modelos aumenta con el tamaño del modelo y, más crucialmente, con el fine-tuning. Somos los primeros en estudiar cómo las variaciones en los prompts afectan el rendimiento de los sondeos en tareas de Teoría de la Mente. Demostramos que las representaciones de los modelos son sensibles a las variaciones en los prompts, incluso cuando dichas variaciones deberían ser beneficiosas. Finalmente, complementamos experimentos previos de edición de activaciones en tareas de Teoría de la Mente y mostramos que es posible mejorar el rendimiento de razonamiento de los modelos guiando sus activaciones sin necesidad de entrenar ningún sondeo.
English
While numerous works have assessed the generative performance of language
models (LMs) on tasks requiring Theory of Mind reasoning, research into the
models' internal representation of mental states remains limited. Recent work
has used probing to demonstrate that LMs can represent beliefs of themselves
and others. However, these claims are accompanied by limited evaluation, making
it difficult to assess how mental state representations are affected by model
design and training choices. We report an extensive benchmark with various LM
types with different model sizes, fine-tuning approaches, and prompt designs to
study the robustness of mental state representations and memorisation issues
within the probes. Our results show that the quality of models' internal
representations of the beliefs of others increases with model size and, more
crucially, with fine-tuning. We are the first to study how prompt variations
impact probing performance on theory of mind tasks. We demonstrate that models'
representations are sensitive to prompt variations, even when such variations
should be beneficial. Finally, we complement previous activation editing
experiments on Theory of Mind tasks and show that it is possible to improve
models' reasoning performance by steering their activations without the need to
train any probe.Summary
AI-Generated Summary