ChatPaper.aiChatPaper

Les modèles de vision et de langage peuvent-ils déduire la direction du regard humain ? Une étude contrôlée

Can Vision Language Models Infer Human Gaze Direction? A Controlled Study

June 4, 2025
Auteurs: Zory Zhang, Pinyuan Feng, Bingyang Wang, Tianwei Zhao, Suyang Yu, Qingying Gao, Hokin Deng, Ziqiao Ma, Yijiang Li, Dezhi Luo
cs.AI

Résumé

L'inférence référentielle du regard - la capacité à déduire ce que les autres regardent - est une composante essentielle d'une théorie de l'esprit qui sous-tend l'interaction naturelle entre humains et IA. Dans une étude contrôlée, nous avons évalué cette compétence auprès de 111 modèles de vision et langage (VLMs) en utilisant des photos présentant des niveaux de difficulté et de variabilité manipulés, comparant leurs performances à celles de participants humains (N = 65), et analysé les comportements à l'aide de modèles à effets mixtes. Nous avons constaté que 94 des 111 VLMs n'ont pas fait mieux qu'un choix aléatoire, tandis que les humains ont atteint une précision quasi maximale. Les VLMs répondent même avec une fréquence presque égale pour chaque choix. Devineraient-ils au hasard ? Bien que la plupart des VLMs rencontrent des difficultés, en nous concentrant sur cinq des VLMs de premier plan ayant une performance supérieure au hasard, nous observons que leur performance décline avec l'augmentation de la difficulté de la tâche mais varie peu selon les différents prompts et objets de la scène. Ces caractéristiques comportementales ne peuvent s'expliquer en les considérant comme des devineurs aléatoires. Au lieu de cela, ils utilisent probablement une combinaison d'heuristiques et de conjectures, de sorte que leur performance est sensible à la difficulté de la tâche mais robuste aux variations perceptuelles. Cela suggère que les VLMs, dépourvus de capacité d'inférence du regard, n'ont pas encore atteint le statut de technologies capables d'interagir naturellement avec les humains, mais le potentiel demeure.
English
Gaze-referential inference--the ability to infer what others are looking at--is a critical component of a theory of mind that underpins natural human-AI interaction. In a controlled study, we evaluated this skill across 111 Vision Language Models (VLMs) using photos taken with manipulated difficulty and variability, comparing performance with that of human participants (N = 65), and analyzed behaviors using mixed-effects models. We found that 94 of the 111 VLMs failed to do better than random guessing, while humans achieved near-ceiling accuracy. VLMs even respond with each choice almost equally frequently. Are they randomly guessing? Although most VLMs struggle, when we zoom in on five of the top-tier VLMs with above-chance performance, we find that their performance declined with increasing task difficulty but varied only slightly across different prompts and scene objects. These behavioral features cannot be explained by considering them as random guessers. Instead, they likely use a combination of heuristics and guessing such that their performance is subject to the task difficulty but robust to perceptual variations. This suggests that VLMs, lacking gaze inference capability, have yet to become technologies that can naturally interact with humans, but the potential remains.
PDF42June 13, 2025