Могут ли модели обработки зрения и языка определять направление взгляда человека? Контролируемое исследование
Can Vision Language Models Infer Human Gaze Direction? A Controlled Study
June 4, 2025
Авторы: Zory Zhang, Pinyuan Feng, Bingyang Wang, Tianwei Zhao, Suyang Yu, Qingying Gao, Hokin Deng, Ziqiao Ma, Yijiang Li, Dezhi Luo
cs.AI
Аннотация
Вывод о направлении взгляда — способность определять, на что смотрят другие, — является ключевым компонентом теории сознания, лежащей в основе естественного взаимодействия между человеком и ИИ. В контролируемом исследовании мы оценили этот навык у 111 моделей обработки визуальной и языковой информации (Vision Language Models, VLMs), используя фотографии с варьирующейся сложностью и разнообразием, сравнивая их результаты с показателями участников-людей (N = 65), и проанализировали поведение с помощью моделей смешанных эффектов. Мы обнаружили, что 94 из 111 VLMs не смогли превзойти случайное угадывание, в то время как люди достигли почти максимальной точности. VLMs даже отвечали на каждый вариант почти с одинаковой частотой. Угадывают ли они случайно? Хотя большинство VLMs испытывают трудности, при более детальном рассмотрении пяти лучших моделей, показавших результаты выше случайных, мы обнаружили, что их производительность снижалась с увеличением сложности задачи, но варьировалась лишь незначительно в зависимости от различных запросов и объектов в сцене. Эти поведенческие особенности нельзя объяснить, считая их случайными угадывателями. Вместо этого они, вероятно, используют комбинацию эвристик и угадывания, так что их производительность зависит от сложности задачи, но устойчива к перцептивным вариациям. Это говорит о том, что VLMs, не обладая способностью к выводу о направлении взгляда, пока не стали технологиями, способными естественно взаимодействовать с людьми, но потенциал для этого остается.
English
Gaze-referential inference--the ability to infer what others are looking
at--is a critical component of a theory of mind that underpins natural human-AI
interaction. In a controlled study, we evaluated this skill across 111 Vision
Language Models (VLMs) using photos taken with manipulated difficulty and
variability, comparing performance with that of human participants (N = 65),
and analyzed behaviors using mixed-effects models. We found that 94 of the 111
VLMs failed to do better than random guessing, while humans achieved
near-ceiling accuracy. VLMs even respond with each choice almost equally
frequently. Are they randomly guessing? Although most VLMs struggle, when we
zoom in on five of the top-tier VLMs with above-chance performance, we find
that their performance declined with increasing task difficulty but varied only
slightly across different prompts and scene objects. These behavioral features
cannot be explained by considering them as random guessers. Instead, they
likely use a combination of heuristics and guessing such that their performance
is subject to the task difficulty but robust to perceptual variations. This
suggests that VLMs, lacking gaze inference capability, have yet to become
technologies that can naturally interact with humans, but the potential
remains.