Können Vision-Language-Modelle die Blickrichtung von Menschen ableiten? Eine kontrollierte Studie
Can Vision Language Models Infer Human Gaze Direction? A Controlled Study
June 4, 2025
Autoren: Zory Zhang, Pinyuan Feng, Bingyang Wang, Tianwei Zhao, Suyang Yu, Qingying Gao, Hokin Deng, Ziqiao Ma, Yijiang Li, Dezhi Luo
cs.AI
Zusammenfassung
Gaze-referenzielle Inferenz – die Fähigkeit, zu erschließen, worauf andere blicken – ist eine entscheidende Komponente einer Theory of Mind, die natürliche Mensch-KI-Interaktionen ermöglicht. In einer kontrollierten Studie bewerteten wir diese Fähigkeit bei 111 Vision-Language-Modellen (VLMs) anhand von Fotos mit manipulierter Schwierigkeit und Variabilität, verglichen die Leistung mit der menschlicher Teilnehmer (N = 65) und analysierten das Verhalten mithilfe von Mixed-Effects-Modellen. Wir fanden heraus, dass 94 der 111 VLMs nicht besser als zufälliges Raten abschnitten, während Menschen eine nahezu perfekte Genauigkeit erreichten. VLMs antworteten sogar nahezu gleich häufig mit jeder Wahl. Raten sie zufällig? Obwohl die meisten VLMs Schwierigkeiten hatten, zeigte sich bei einer genaueren Betrachtung von fünf der leistungsstärksten VLMs mit überzufälliger Leistung, dass ihre Leistung mit zunehmender Aufgabenkomplexität abnahm, aber nur geringfügig über verschiedene Prompts und Szenenobjekte variierte. Diese Verhaltensmerkmale lassen sich nicht durch die Annahme erklären, dass sie zufällig raten. Stattdessen nutzen sie wahrscheinlich eine Kombination aus Heuristiken und Raten, sodass ihre Leistung von der Aufgabenkomplexität abhängt, aber robust gegenüber wahrnehmungsbedingten Variationen ist. Dies deutet darauf hin, dass VLMs, denen die Fähigkeit zur Blickinferenz fehlt, noch keine Technologien sind, die natürlich mit Menschen interagieren können, aber das Potenzial bleibt bestehen.
English
Gaze-referential inference--the ability to infer what others are looking
at--is a critical component of a theory of mind that underpins natural human-AI
interaction. In a controlled study, we evaluated this skill across 111 Vision
Language Models (VLMs) using photos taken with manipulated difficulty and
variability, comparing performance with that of human participants (N = 65),
and analyzed behaviors using mixed-effects models. We found that 94 of the 111
VLMs failed to do better than random guessing, while humans achieved
near-ceiling accuracy. VLMs even respond with each choice almost equally
frequently. Are they randomly guessing? Although most VLMs struggle, when we
zoom in on five of the top-tier VLMs with above-chance performance, we find
that their performance declined with increasing task difficulty but varied only
slightly across different prompts and scene objects. These behavioral features
cannot be explained by considering them as random guessers. Instead, they
likely use a combination of heuristics and guessing such that their performance
is subject to the task difficulty but robust to perceptual variations. This
suggests that VLMs, lacking gaze inference capability, have yet to become
technologies that can naturally interact with humans, but the potential
remains.