I Modelli Linguistico-Visivi Possono Dedurre la Direzione dello Sguardo Umano? Uno Studio Controllato
Can Vision Language Models Infer Human Gaze Direction? A Controlled Study
June 4, 2025
Autori: Zory Zhang, Pinyuan Feng, Bingyang Wang, Tianwei Zhao, Suyang Yu, Qingying Gao, Hokin Deng, Ziqiao Ma, Yijiang Li, Dezhi Luo
cs.AI
Abstract
L'inferenza referenziale dello sguardo—la capacità di dedurre ciò che gli altri stanno guardando—è un componente cruciale di una teoria della mente che sostiene l'interazione naturale tra umani e intelligenza artificiale. In uno studio controllato, abbiamo valutato questa abilità in 111 Modelli di Linguaggio Visivo (VLMs) utilizzando foto scattate con difficoltà e variabilità manipolate, confrontando le prestazioni con quelle di partecipanti umani (N = 65), e analizzato i comportamenti utilizzando modelli a effetti misti. Abbiamo scoperto che 94 dei 111 VLMs non sono riusciti a fare meglio di un'ipotesi casuale, mentre gli umani hanno raggiunto un'accuratezza quasi perfetta. I VLMs rispondono addirittura con ogni scelta quasi con la stessa frequenza. Stanno indovinando a caso? Sebbene la maggior parte dei VLMs abbia difficoltà, quando ci concentriamo su cinque dei VLMs di fascia alta con prestazioni superiori al caso, troviamo che le loro prestazioni sono diminuite con l'aumentare della difficoltà del compito, ma variavano solo leggermente tra diversi prompt e oggetti della scena. Queste caratteristiche comportamentali non possono essere spiegate considerandoli come indovinatori casuali. Piuttosto, probabilmente utilizzano una combinazione di euristiche e ipotesi tali che le loro prestazioni sono influenzate dalla difficoltà del compito ma robuste alle variazioni percettive. Ciò suggerisce che i VLMs, privi di capacità di inferenza dello sguardo, devono ancora diventare tecnologie in grado di interagire naturalmente con gli umani, ma il potenziale rimane.
English
Gaze-referential inference--the ability to infer what others are looking
at--is a critical component of a theory of mind that underpins natural human-AI
interaction. In a controlled study, we evaluated this skill across 111 Vision
Language Models (VLMs) using photos taken with manipulated difficulty and
variability, comparing performance with that of human participants (N = 65),
and analyzed behaviors using mixed-effects models. We found that 94 of the 111
VLMs failed to do better than random guessing, while humans achieved
near-ceiling accuracy. VLMs even respond with each choice almost equally
frequently. Are they randomly guessing? Although most VLMs struggle, when we
zoom in on five of the top-tier VLMs with above-chance performance, we find
that their performance declined with increasing task difficulty but varied only
slightly across different prompts and scene objects. These behavioral features
cannot be explained by considering them as random guessers. Instead, they
likely use a combination of heuristics and guessing such that their performance
is subject to the task difficulty but robust to perceptual variations. This
suggests that VLMs, lacking gaze inference capability, have yet to become
technologies that can naturally interact with humans, but the potential
remains.