언어 모델의 정신 상태 표현 벤치마킹
Benchmarking Mental State Representations in Language Models
June 25, 2024
저자: Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling
cs.AI
초록
마음이론(Theory of Mind) 추론이 필요한 과제에서 언어 모델(LM)의 생성 성능을 평가한 연구는 많지만, 모델 내부의 심리 상태 표현에 대한 연구는 여전히 제한적입니다. 최근 연구에서는 프로빙(probing)을 사용하여 언어 모델이 자기 자신과 타인의 신념을 표현할 수 있음을 입증했습니다. 그러나 이러한 주장은 제한된 평가와 함께 제시되어, 모델 설계와 훈련 선택이 심리 상태 표현에 어떻게 영향을 미치는지 평가하기 어렵습니다. 본 연구에서는 다양한 모델 크기, 미세 조정(fine-tuning) 접근법, 프롬프트 설계를 갖춘 다양한 언어 모델 유형을 대상으로 광범위한 벤치마크를 수행하여 심리 상태 표현의 견고성과 프로빙 내의 기억 문제를 연구했습니다. 연구 결과, 타인의 신념에 대한 모델의 내부 표현 품질은 모델 크기가 커짐에 따라 증가하며, 특히 미세 조정이 더 중요한 영향을 미치는 것으로 나타났습니다. 우리는 프롬프트 변형이 마음이론 과제에서의 프로빙 성능에 미치는 영향을 최초로 연구했습니다. 모델의 표현은 프롬프트 변형에 민감하며, 이러한 변형이 유리할 것으로 예상되는 경우에도 민감하게 반응함을 입증했습니다. 마지막으로, 이전의 활성화 편집(activation editing) 실험을 보완하여, 프로브를 훈련할 필요 없이 활성화를 조정함으로써 모델의 추론 성능을 개선할 수 있음을 보여줍니다.
English
While numerous works have assessed the generative performance of language
models (LMs) on tasks requiring Theory of Mind reasoning, research into the
models' internal representation of mental states remains limited. Recent work
has used probing to demonstrate that LMs can represent beliefs of themselves
and others. However, these claims are accompanied by limited evaluation, making
it difficult to assess how mental state representations are affected by model
design and training choices. We report an extensive benchmark with various LM
types with different model sizes, fine-tuning approaches, and prompt designs to
study the robustness of mental state representations and memorisation issues
within the probes. Our results show that the quality of models' internal
representations of the beliefs of others increases with model size and, more
crucially, with fine-tuning. We are the first to study how prompt variations
impact probing performance on theory of mind tasks. We demonstrate that models'
representations are sensitive to prompt variations, even when such variations
should be beneficial. Finally, we complement previous activation editing
experiments on Theory of Mind tasks and show that it is possible to improve
models' reasoning performance by steering their activations without the need to
train any probe.Summary
AI-Generated Summary