Voyez-vous ce que je désigne ? Questions-réponses vidéo égocentriques basées sur la gestuelle

Résumé

Comprendre et répondre aux questions basées sur le geste de pointage d'un utilisateur est essentiel pour les assistants IA egocentriques de nouvelle génération. Cependant, les modèles de langage multimodaux (MLLM) actuels peinent à accomplir de telles tâches en raison du manque de données riches en gestes et de leur capacité limitée à inférer une intention de pointage fine à partir de vidéos egocentriques. Pour résoudre ce problème, nous présentons EgoPointVQA, un jeu de données et un benchmark pour la réponse aux questions egocentriques ancrée dans les gestes, comprenant 4000 vidéos synthétiques et 400 vidéos du monde réel couvrant plusieurs tâches de raisonnement déictique. Sur cette base, nous proposons en outre Hand Intent Tokens (HINT), qui encode des tokens dérivés de points clés 3D de la main à l'aide d'un modèle de reconstruction standard et les entrelace avec l'entrée du modèle pour fournir un contexte spatial et temporel explicite afin d'interpréter l'intention de pointage. Nous montrons que notre modèle surpasse les autres avec différentes architectures et tailles. En particulier, HINT-14B atteint une précision de 68,1 % en moyenne sur 6 tâches, surpassant l'état de l'art, InternVL3-14B, de 6,6 %. Pour favoriser davantage la recherche ouverte, nous publierons le code, le modèle et le jeu de données. Page du projet : https://yuuraa.github.io/papers/choi2026egovqa

English

Understanding and answering questions based on a user's pointing gesture is essential for next-generation egocentric AI assistants. However, current Multimodal Large Language Models (MLLMs) struggle with such tasks due to the lack of gesture-rich data and their limited ability to infer fine-grained pointing intent from egocentric video. To address this, we introduce EgoPointVQA, a dataset and benchmark for gesture-grounded egocentric question answering, comprising 4000 synthetic and 400 real-world videos across multiple deictic reasoning tasks. Built upon it, we further propose Hand Intent Tokens (HINT), which encodes tokens derived from 3D hand keypoints using an off-the-shelf reconstruction model and interleaves them with the model input to provide explicit spatial and temporal context for interpreting pointing intent. We show that our model outperforms others in different backbones and model sizes. In particular, HINT-14B achieves 68.1% accuracy, on average over 6 tasks, surpassing the state-of-the-art, InternVL3-14B, by 6.6%. To further facilitate the open research, we will release the code, model, and dataset. Project page: https://yuuraa.github.io/papers/choi2026egovqa

Voyez-vous ce que je désigne ? Questions-réponses vidéo égocentriques basées sur la gestuelle

Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering

Résumé

Support