¿Ves Lo Que Estoy Señalando? Respuesta a Preguntas en Video Egocéntrico Basado en Gestos

Resumen

Comprender y responder preguntas basadas en gestos de señalamiento del usuario es esencial para los asistentes de IA egocéntricos de próxima generación. Sin embargo, los Modelos de Lenguaje Grandes Multimodales (MLLMs) actuales tienen dificultades con tales tareas debido a la falta de datos ricos en gestos y a su capacidad limitada para inferir la intención de señalamiento a nivel detallado a partir de video egocéntrico. Para abordar esto, presentamos EgoPointVQA, un conjunto de datos y punto de referencia para la respuesta a preguntas egocéntricas basadas en gestos, que comprende 4000 videos sintéticos y 400 del mundo real a través de múltiples tareas de razonamiento déictico. Sobre esta base, proponemos además Hand Intent Tokens (HINT), que codifica tokens derivados de puntos clave 3D de la mano utilizando un modelo de reconstrucción estándar y los intercala con la entrada del modelo para proporcionar contexto espacial y temporal explícito para interpretar la intención de señalamiento. Demostramos que nuestro modelo supera a otros en diferentes arquitecturas y tamaños de modelo. En particular, HINT-14B alcanza un 68.1% de precisión, en promedio sobre 6 tareas, superando al estado del arte, InternVL3-14B, en un 6.6%. Para facilitar aún más la investigación abierta, liberaremos el código, el modelo y el conjunto de datos. Página del proyecto: https://yuuraa.github.io/papers/choi2026egovqa

English

Understanding and answering questions based on a user's pointing gesture is essential for next-generation egocentric AI assistants. However, current Multimodal Large Language Models (MLLMs) struggle with such tasks due to the lack of gesture-rich data and their limited ability to infer fine-grained pointing intent from egocentric video. To address this, we introduce EgoPointVQA, a dataset and benchmark for gesture-grounded egocentric question answering, comprising 4000 synthetic and 400 real-world videos across multiple deictic reasoning tasks. Built upon it, we further propose Hand Intent Tokens (HINT), which encodes tokens derived from 3D hand keypoints using an off-the-shelf reconstruction model and interleaves them with the model input to provide explicit spatial and temporal context for interpreting pointing intent. We show that our model outperforms others in different backbones and model sizes. In particular, HINT-14B achieves 68.1% accuracy, on average over 6 tasks, surpassing the state-of-the-art, InternVL3-14B, by 6.6%. To further facilitate the open research, we will release the code, model, and dataset. Project page: https://yuuraa.github.io/papers/choi2026egovqa

¿Ves Lo Que Estoy Señalando? Respuesta a Preguntas en Video Egocéntrico Basado en Gestos

Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering

Resumen

Support