ChatPaper.aiChatPaper

¿Pueden los modelos de lenguaje visual inferir la dirección de la mirada humana? Un estudio controlado

Can Vision Language Models Infer Human Gaze Direction? A Controlled Study

June 4, 2025
Autores: Zory Zhang, Pinyuan Feng, Bingyang Wang, Tianwei Zhao, Suyang Yu, Qingying Gao, Hokin Deng, Ziqiao Ma, Yijiang Li, Dezhi Luo
cs.AI

Resumen

La inferencia referencial de la mirada—la capacidad de deducir hacia dónde están mirando los demás—es un componente crítico de una teoría de la mente que sustenta la interacción natural entre humanos e inteligencia artificial. En un estudio controlado, evaluamos esta habilidad en 111 Modelos de Lenguaje Visual (VLMs, por sus siglas en inglés) utilizando fotografías tomadas con dificultad y variabilidad manipuladas, comparando su rendimiento con el de participantes humanos (N = 65), y analizamos los comportamientos mediante modelos de efectos mixtos. Descubrimos que 94 de los 111 VLMs no superaron el azar, mientras que los humanos alcanzaron una precisión casi máxima. Los VLMs incluso respondieron con cada opción casi con la misma frecuencia. ¿Están adivinando al azar? Aunque la mayoría de los VLMs tienen dificultades, al enfocarnos en cinco de los VLMs de mayor rendimiento con un desempeño superior al azar, encontramos que su rendimiento disminuyó al aumentar la dificultad de la tarea, pero varió solo ligeramente entre diferentes indicaciones y objetos de la escena. Estas características conductuales no pueden explicarse considerándolos como adivinadores aleatorios. En cambio, es probable que utilicen una combinación de heurísticas y conjeturas, de modo que su rendimiento depende de la dificultad de la tarea pero es robusto frente a variaciones perceptivas. Esto sugiere que los VLMs, al carecer de capacidad de inferencia de la mirada, aún no se han convertido en tecnologías que puedan interactuar de manera natural con los humanos, pero el potencial sigue existiendo.
English
Gaze-referential inference--the ability to infer what others are looking at--is a critical component of a theory of mind that underpins natural human-AI interaction. In a controlled study, we evaluated this skill across 111 Vision Language Models (VLMs) using photos taken with manipulated difficulty and variability, comparing performance with that of human participants (N = 65), and analyzed behaviors using mixed-effects models. We found that 94 of the 111 VLMs failed to do better than random guessing, while humans achieved near-ceiling accuracy. VLMs even respond with each choice almost equally frequently. Are they randomly guessing? Although most VLMs struggle, when we zoom in on five of the top-tier VLMs with above-chance performance, we find that their performance declined with increasing task difficulty but varied only slightly across different prompts and scene objects. These behavioral features cannot be explained by considering them as random guessers. Instead, they likely use a combination of heuristics and guessing such that their performance is subject to the task difficulty but robust to perceptual variations. This suggests that VLMs, lacking gaze inference capability, have yet to become technologies that can naturally interact with humans, but the potential remains.
PDF42June 13, 2025