Sehen Sie, worauf ich zeige? Gestenbasierte Frage-Antwort-Systeme für egocentrische Videos

Zusammenfassung

Das Verstehen und Beantworten von Fragen basierend auf Zeigegesten eines Nutzers ist entscheidend für KI-Assistenten der nächsten Generation mit Egocentric-Perspektive. Allerdings haben aktuelle Multimodale Large Language Models (MLLMs) mit solchen Aufgaben Schwierigkeiten, was auf den Mangel an gestenreichen Daten und ihre begrenzte Fähigkeit zurückzuführen ist, feingranulare Zeigeabsichten aus Egocentric-Videos abzuleiten. Um dieses Problem zu lösen, stellen wir EgoPointVQA vor – einen Datensatz und Benchmark für gestengestütztes Frage-Antworten in der Egocentric-Perspektive, der 4000 synthetische und 400 reale Videos über mehrere deiktische Reasoning-Aufgaben hinweg umfasst. Darauf aufbauend schlagen wir Hand Intent Tokens (HINT) vor, die mithilfe eines verfügbaren Rekonstruktionsmodells aus 3D-Hand-Keypoints abgeleitete Tokens kodieren und diese mit dem Model-Input verschachteln, um expliziten räumlichen und zeitlichen Kontext für die Interpretation der Zeigeabsicht bereitzustellen. Wir zeigen, dass unser Modell andere in verschiedenen Backbones und Modellgrößen übertrifft. Insbesondere erreicht HINT-14B eine Genauigkeit von 68,1 % im Durchschnitt über 6 Aufgaben und übertrifft damit den State-of-the-Art, InternVL3-14B, um 6,6 %. Um die offene Forschung weiter zu fördern, werden wir den Code, das Modell und den Datensatz veröffentlichen. Projektseite: https://yuuraa.github.io/papers/choi2026egovqa

English

Understanding and answering questions based on a user's pointing gesture is essential for next-generation egocentric AI assistants. However, current Multimodal Large Language Models (MLLMs) struggle with such tasks due to the lack of gesture-rich data and their limited ability to infer fine-grained pointing intent from egocentric video. To address this, we introduce EgoPointVQA, a dataset and benchmark for gesture-grounded egocentric question answering, comprising 4000 synthetic and 400 real-world videos across multiple deictic reasoning tasks. Built upon it, we further propose Hand Intent Tokens (HINT), which encodes tokens derived from 3D hand keypoints using an off-the-shelf reconstruction model and interleaves them with the model input to provide explicit spatial and temporal context for interpreting pointing intent. We show that our model outperforms others in different backbones and model sizes. In particular, HINT-14B achieves 68.1% accuracy, on average over 6 tasks, surpassing the state-of-the-art, InternVL3-14B, by 6.6%. To further facilitate the open research, we will release the code, model, and dataset. Project page: https://yuuraa.github.io/papers/choi2026egovqa

Sehen Sie, worauf ich zeige? Gestenbasierte Frage-Antwort-Systeme für egocentrische Videos

Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering

Zusammenfassung

Support