Kunnen Vision Language Models Menselijke Blikrichting Afleiden? Een Gecontroleerde Studie
Can Vision Language Models Infer Human Gaze Direction? A Controlled Study
June 4, 2025
Auteurs: Zory Zhang, Pinyuan Feng, Bingyang Wang, Tianwei Zhao, Suyang Yu, Qingying Gao, Hokin Deng, Ziqiao Ma, Yijiang Li, Dezhi Luo
cs.AI
Samenvatting
Gaze-referentiële inferentie--het vermogen om af te leiden waar anderen naar kijken--is een cruciaal onderdeel van een theory of mind die natuurlijke mens-AI-interactie ondersteunt. In een gecontroleerde studie evalueerden we deze vaardigheid bij 111 Vision Language Models (VLMs) met behulp van foto's die met gemanipuleerde moeilijkheidsgraad en variabiliteit zijn genomen, vergeleken de prestaties met die van menselijke deelnemers (N = 65), en analyseerden het gedrag met gemengde-effectenmodellen. We ontdekten dat 94 van de 111 VLMs niet beter presteerden dan willekeurig gissen, terwijl mensen een bijna maximale nauwkeurigheid bereikten. VLMs reageren zelfs met elke keuze bijna even vaak. Gissen ze willekeurig? Hoewel de meeste VLMs moeite hebben, ontdekten we dat, wanneer we inzoomen op vijf van de top-VLMs met boven-kansprestaties, hun prestaties afnamen met toenemende taakmoeilijkheid maar slechts licht varieerden bij verschillende prompts en scèneobjecten. Deze gedragskenmerken kunnen niet worden verklaard door ze als willekeurige gissers te beschouwen. In plaats daarvan gebruiken ze waarschijnlijk een combinatie van heuristieken en gissen, waardoor hun prestaties afhankelijk zijn van de taakmoeilijkheid maar robuust zijn tegen perceptuele variaties. Dit suggereert dat VLMs, zonder gaze-inferentievermogen, nog geen technologieën zijn die natuurlijk kunnen interacteren met mensen, maar het potentieel blijft bestaan.
English
Gaze-referential inference--the ability to infer what others are looking
at--is a critical component of a theory of mind that underpins natural human-AI
interaction. In a controlled study, we evaluated this skill across 111 Vision
Language Models (VLMs) using photos taken with manipulated difficulty and
variability, comparing performance with that of human participants (N = 65),
and analyzed behaviors using mixed-effects models. We found that 94 of the 111
VLMs failed to do better than random guessing, while humans achieved
near-ceiling accuracy. VLMs even respond with each choice almost equally
frequently. Are they randomly guessing? Although most VLMs struggle, when we
zoom in on five of the top-tier VLMs with above-chance performance, we find
that their performance declined with increasing task difficulty but varied only
slightly across different prompts and scene objects. These behavioral features
cannot be explained by considering them as random guessers. Instead, they
likely use a combination of heuristics and guessing such that their performance
is subject to the task difficulty but robust to perceptual variations. This
suggests that VLMs, lacking gaze inference capability, have yet to become
technologies that can naturally interact with humans, but the potential
remains.