Vedi Dove Punto? Risposta a Domande su Video Egocentrici Basata sui Gest

Abstract

Comprendere e rispondere alle domande basate sui gesti di puntamento dell'utente è fondamentale per le assistenti IA egocentriche di prossima generazione. Tuttavia, gli attuali Modelli Linguistici Multimodali di Grande Dimensione (MLLM) faticano in tali compiti a causa della carenza di dati ricchi di gesti e della loro limitata capacità di inferire intenzioni di puntamento granulari da video in prima persona. Per affrontare questo problema, introduciamo EgoPointVQA, un dataset e un benchmark per il question answering egocentrico ancorato ai gesti, che comprende 4000 video sintetici e 400 video del mondo reale, relativi a molteplici compiti di ragionamento deittico. Su di esso basiamo inoltre la nostra proposta degli Hand Intent Tokens (HINT), che codificano token derivati da keypoint 3D della mano utilizzando un modello di ricostruzione preesistente e li intervallano con l'input del modello per fornire un contesto spaziale e temporale esplicito per interpretare l'intenzione di puntamento. Dimostriamo che il nostro modello supera gli altri con diverse architetture di base e dimensioni. In particolare, HINT-14B raggiunge una precisione media del 68,1% su 6 compiti, superando lo stato dell'arte, InternVL3-14B, del 6,6%. Per favorire ulteriormente la ricerca aperta, renderemo disponibili codice, modello e dataset. Pagina del progetto: https://yuuraa.github.io/papers/choi2026egovqa

English

Understanding and answering questions based on a user's pointing gesture is essential for next-generation egocentric AI assistants. However, current Multimodal Large Language Models (MLLMs) struggle with such tasks due to the lack of gesture-rich data and their limited ability to infer fine-grained pointing intent from egocentric video. To address this, we introduce EgoPointVQA, a dataset and benchmark for gesture-grounded egocentric question answering, comprising 4000 synthetic and 400 real-world videos across multiple deictic reasoning tasks. Built upon it, we further propose Hand Intent Tokens (HINT), which encodes tokens derived from 3D hand keypoints using an off-the-shelf reconstruction model and interleaves them with the model input to provide explicit spatial and temporal context for interpreting pointing intent. We show that our model outperforms others in different backbones and model sizes. In particular, HINT-14B achieves 68.1% accuracy, on average over 6 tasks, surpassing the state-of-the-art, InternVL3-14B, by 6.6%. To further facilitate the open research, we will release the code, model, and dataset. Project page: https://yuuraa.github.io/papers/choi2026egovqa

Vedi Dove Punto? Risposta a Domande su Video Egocentrici Basata sui Gest

Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering

Abstract

Support