ChatPaper.aiChatPaper

Evaluación de Representaciones de Estados Mentales en Modelos de Lenguaje

Benchmarking Mental State Representations in Language Models

June 25, 2024
Autores: Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling
cs.AI

Resumen

Si bien numerosos trabajos han evaluado el rendimiento generativo de los modelos de lenguaje (LMs) en tareas que requieren razonamiento sobre la Teoría de la Mente, la investigación sobre la representación interna de los estados mentales en estos modelos sigue siendo limitada. Trabajos recientes han utilizado técnicas de sondeo (probing) para demostrar que los LMs pueden representar creencias propias y ajenas. Sin embargo, estas afirmaciones están acompañadas de una evaluación limitada, lo que dificulta determinar cómo las representaciones de los estados mentales se ven afectadas por el diseño del modelo y las decisiones de entrenamiento. Presentamos un extenso benchmark con varios tipos de LMs de diferentes tamaños, enfoques de fine-tuning y diseños de prompts para estudiar la robustez de las representaciones de estados mentales y los problemas de memorización en los sondeos. Nuestros resultados muestran que la calidad de las representaciones internas de las creencias ajenas en los modelos aumenta con el tamaño del modelo y, más crucialmente, con el fine-tuning. Somos los primeros en estudiar cómo las variaciones en los prompts afectan el rendimiento de los sondeos en tareas de Teoría de la Mente. Demostramos que las representaciones de los modelos son sensibles a las variaciones en los prompts, incluso cuando dichas variaciones deberían ser beneficiosas. Finalmente, complementamos experimentos previos de edición de activaciones en tareas de Teoría de la Mente y mostramos que es posible mejorar el rendimiento de razonamiento de los modelos guiando sus activaciones sin necesidad de entrenar ningún sondeo.
English
While numerous works have assessed the generative performance of language models (LMs) on tasks requiring Theory of Mind reasoning, research into the models' internal representation of mental states remains limited. Recent work has used probing to demonstrate that LMs can represent beliefs of themselves and others. However, these claims are accompanied by limited evaluation, making it difficult to assess how mental state representations are affected by model design and training choices. We report an extensive benchmark with various LM types with different model sizes, fine-tuning approaches, and prompt designs to study the robustness of mental state representations and memorisation issues within the probes. Our results show that the quality of models' internal representations of the beliefs of others increases with model size and, more crucially, with fine-tuning. We are the first to study how prompt variations impact probing performance on theory of mind tasks. We demonstrate that models' representations are sensitive to prompt variations, even when such variations should be beneficial. Finally, we complement previous activation editing experiments on Theory of Mind tasks and show that it is possible to improve models' reasoning performance by steering their activations without the need to train any probe.

Summary

AI-Generated Summary

PDF31November 29, 2024