내가 가리키는 것을 보나요? 제스처 기반 자기 중심 비디오 질의응답
Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering
March 13, 2026
저자: Yura Choi, Roy Miles, Rolandos Alexandros Potamias, Ismail Elezi, Jiankang Deng, Stefanos Zafeiriou
cs.AI
초록
사용자의 포인팅 제스처를 이해하고 이를 바탕으로 질문에 답변하는 것은 차세대 에고센트릭 AI 어시스턴트에 필수적인 능력입니다. 그러나 현재의 멀티모달 대규모 언어 모델(MLLMs)은 제스처 중심 데이터의 부족과 에고센트릭 비디오에서 세밀한 포인팅 의도를 추론하는 능력의 한계로 인해 이러한 작업에 어려움을 겪고 있습니다. 이를 해결하기 위해 우리는 제스처 기반 에고센트릭 질의응답을 위한 데이터셋 및 벤치마크인 EgoPointVQA를 소개합니다. 이는 여러 지시적 추론 작업에 걸쳐 4000개의 합성 비디오와 400개의 실제 비디오로 구성되어 있습니다. 이를 기반으로 우리는 기존 재구성 모델에서 추출한 3D 손 키포인트로부터 도출된 토큰을 인코딩하고, 이를 모델 입력과 인터리빙하여 포인팅 의도 해석을 위한 명시적인 공간 및 시간적 컨텍스트를 제공하는 Hand Intent Tokens(HINT)를 추가로 제안합니다. 우리 모델이 다양한 백본과 모델 크기에서 다른 모델들을 성능적으로 능가함을 보여줍니다. 특히, HINT-14B는 6가지 작업에 대한 평균 정확도 68.1%를 달성하여 최첨단 모델인 InternVL3-14B를 6.6% 앞섭니다. 개방형 연구를 더욱 촉진하기 위해 코드, 모델 및 데이터셋을 공개할 예정입니다. 프로젝트 페이지: https://yuuraa.github.io/papers/choi2026egovqa
English
Understanding and answering questions based on a user's pointing gesture is essential for next-generation egocentric AI assistants. However, current Multimodal Large Language Models (MLLMs) struggle with such tasks due to the lack of gesture-rich data and their limited ability to infer fine-grained pointing intent from egocentric video. To address this, we introduce EgoPointVQA, a dataset and benchmark for gesture-grounded egocentric question answering, comprising 4000 synthetic and 400 real-world videos across multiple deictic reasoning tasks. Built upon it, we further propose Hand Intent Tokens (HINT), which encodes tokens derived from 3D hand keypoints using an off-the-shelf reconstruction model and interleaves them with the model input to provide explicit spatial and temporal context for interpreting pointing intent. We show that our model outperforms others in different backbones and model sizes. In particular, HINT-14B achieves 68.1% accuracy, on average over 6 tasks, surpassing the state-of-the-art, InternVL3-14B, by 6.6%. To further facilitate the open research, we will release the code, model, and dataset. Project page: https://yuuraa.github.io/papers/choi2026egovqa