ChatPaper.aiChatPaper

Os Modelos de Visão e Linguagem Podem Inferir a Direção do Olhar Humano? Um Estudo Controlado

Can Vision Language Models Infer Human Gaze Direction? A Controlled Study

June 4, 2025
Autores: Zory Zhang, Pinyuan Feng, Bingyang Wang, Tianwei Zhao, Suyang Yu, Qingying Gao, Hokin Deng, Ziqiao Ma, Yijiang Li, Dezhi Luo
cs.AI

Resumo

A inferência referencial do olhar - a capacidade de inferir o que os outros estão olhando - é um componente crítico de uma teoria da mente que sustenta a interação natural entre humanos e IA. Em um estudo controlado, avaliamos essa habilidade em 111 Modelos de Linguagem Visual (VLMs) usando fotos tiradas com dificuldade e variabilidade manipuladas, comparando o desempenho com o de participantes humanos (N = 65), e analisamos os comportamentos usando modelos de efeitos mistos. Descobrimos que 94 dos 111 VLMs não conseguiram superar o acerto aleatório, enquanto os humanos alcançaram precisão quase máxima. Os VLMs até respondem com cada escolha quase igualmente frequente. Eles estão chutando aleatoriamente? Embora a maioria dos VLMs tenha dificuldades, quando nos concentramos em cinco dos VLMs de ponta com desempenho acima do acaso, descobrimos que seu desempenho diminuiu com o aumento da dificuldade da tarefa, mas variou apenas ligeiramente entre diferentes prompts e objetos da cena. Essas características comportamentais não podem ser explicadas considerando-os como chutadores aleatórios. Em vez disso, eles provavelmente usam uma combinação de heurísticas e chutes, de modo que seu desempenho é influenciado pela dificuldade da tarefa, mas robusto a variações perceptivas. Isso sugere que os VLMs, carecendo de capacidade de inferência do olhar, ainda não se tornaram tecnologias que podem interagir naturalmente com humanos, mas o potencial permanece.
English
Gaze-referential inference--the ability to infer what others are looking at--is a critical component of a theory of mind that underpins natural human-AI interaction. In a controlled study, we evaluated this skill across 111 Vision Language Models (VLMs) using photos taken with manipulated difficulty and variability, comparing performance with that of human participants (N = 65), and analyzed behaviors using mixed-effects models. We found that 94 of the 111 VLMs failed to do better than random guessing, while humans achieved near-ceiling accuracy. VLMs even respond with each choice almost equally frequently. Are they randomly guessing? Although most VLMs struggle, when we zoom in on five of the top-tier VLMs with above-chance performance, we find that their performance declined with increasing task difficulty but varied only slightly across different prompts and scene objects. These behavioral features cannot be explained by considering them as random guessers. Instead, they likely use a combination of heuristics and guessing such that their performance is subject to the task difficulty but robust to perceptual variations. This suggests that VLMs, lacking gaze inference capability, have yet to become technologies that can naturally interact with humans, but the potential remains.
PDF42June 13, 2025