시각 언어 모델은 인간의 시선 방향을 추론할 수 있는가? 통제된 연구
Can Vision Language Models Infer Human Gaze Direction? A Controlled Study
June 4, 2025
저자: Zory Zhang, Pinyuan Feng, Bingyang Wang, Tianwei Zhao, Suyang Yu, Qingying Gao, Hokin Deng, Ziqiao Ma, Yijiang Li, Dezhi Luo
cs.AI
초록
시선 참조 추론(타인이 무엇을 보고 있는지 추론하는 능력)은 인간과 AI 간의 자연스러운 상호작용을 뒷받침하는 마음 이론(theory of mind)의 중요한 구성 요소입니다. 통제된 연구에서, 우리는 조작된 난이도와 다양성을 가진 사진을 사용하여 111개의 시각 언어 모델(Vision Language Models, VLMs)의 이 능력을 평가하고, 인간 참가자(N = 65)의 성능과 비교한 뒤 혼합 효과 모델(mixed-effects models)을 사용하여 행동을 분석했습니다. 연구 결과, 111개 VLM 중 94개가 무작위 추측보다 나은 성능을 보이지 못한 반면, 인간 참가자들은 거의 완벽에 가까운 정확도를 달성했습니다. VLM들은 각 선택지에 거의 동일한 빈도로 응답했습니다. 이들은 무작위로 추측하고 있는 걸까요? 대부분의 VLM이 어려움을 겪고 있지만, 상위 5개 VLM의 성능을 자세히 살펴보면, 이들의 성능이 과제 난이도가 증가함에 따라 감소하지만 다양한 프롬프트와 장면 객체 간에는 약간만 변동하는 것을 확인했습니다. 이러한 행동적 특징은 이들을 무작위 추측자로 간주하여 설명할 수 없습니다. 대신, 이들은 휴리스틱과 추측을 결합하여 사용함으로써 과제 난이도에는 영향을 받지만 지각적 변동에는 강건한 성능을 보이는 것으로 보입니다. 이는 VLM이 시선 추론 능력을 갖추지 못해 아직 인간과 자연스럽게 상호작용할 수 있는 기술로 자리 잡지 못했음을 시사하지만, 잠재력은 여전히 남아 있습니다.
English
Gaze-referential inference--the ability to infer what others are looking
at--is a critical component of a theory of mind that underpins natural human-AI
interaction. In a controlled study, we evaluated this skill across 111 Vision
Language Models (VLMs) using photos taken with manipulated difficulty and
variability, comparing performance with that of human participants (N = 65),
and analyzed behaviors using mixed-effects models. We found that 94 of the 111
VLMs failed to do better than random guessing, while humans achieved
near-ceiling accuracy. VLMs even respond with each choice almost equally
frequently. Are they randomly guessing? Although most VLMs struggle, when we
zoom in on five of the top-tier VLMs with above-chance performance, we find
that their performance declined with increasing task difficulty but varied only
slightly across different prompts and scene objects. These behavioral features
cannot be explained by considering them as random guessers. Instead, they
likely use a combination of heuristics and guessing such that their performance
is subject to the task difficulty but robust to perceptual variations. This
suggests that VLMs, lacking gaze inference capability, have yet to become
technologies that can naturally interact with humans, but the potential
remains.