GRASP : Apprendre à ancrer le raisonnement social dans les interactions non verbales multi-personnes

Résumé

Comprendre les interactions sociales nécessite de raisonner sur des indices non verbaux subtils, pourtant les modèles de langage multimodaux actuels (MLLMs) échouent souvent à identifier qui interagit avec qui dans des vidéos mettant en scène plusieurs personnes. Nous présentons GRASP, un jeu de données de raisonnement social à grande échelle qui relie des questions-réponses sociales de haut niveau à des événements fins de regard et de gestes déictiques. GRASP contient 290 000 paires question-réponse portant sur 46 000 vidéos totalisant 749 heures, organisées selon une taxonomie de 16 catégories couvrant le raisonnement sur le regard, le geste et le regard-geste conjoint, ainsi que GRASP-Bench pour l'évaluation. Contrairement aux ressources antérieures qui se concentrent soit sur des indices isolés soit sur des questions-réponses sociales de haut niveau, GRASP construit des questions à partir de trajectoires de regard cohérentes avec l'identité, de gestes déictiques et de leurs compositions conjointes en événements sociaux. De plus, nous proposons la Récompense d'Ancrage Social (SGR), un signal d'apprentissage qui utilise ces événements sociaux pour encourager les modèles à raisonner sur les participants impliqués dans chaque interaction. Les expériences montrent que SGR améliore les performances sur GRASP-Bench tout en maintenant les performances en zero-shot sur les benchmarks connexes de questions-réponses vidéo sociales.

English

Understanding social interactions requires reasoning over subtle non-verbal cues, yet current multimodal large language models (MLLMs) often fail to identify who interacts with whom in multi-person videos. We introduce GRASP, a large-scale social reasoning dataset that connects high-level social QA with fine-grained gaze and deictic gesture events. GRASP contains 290K question--answer pairs over 46K videos totaling 749 hours, organized by a 16-category taxonomy spanning gaze, gesture, and joint gaze--gesture reasoning, together with GRASP-Bench for evaluation. Unlike prior resources that focus on either isolated cues or high-level social QA, GRASP builds questions from identity-consistent gaze trajectories, deictic gestures, and their joint compositions into social events. Moreover, we propose Social Grounding Reward (SGR), a learning signal that uses these social events to encourage models to reason about the participants involved in each interaction. Experiments show that SGR improves performance on GRASP-Bench while maintaining zero-shot performance on related social video QA benchmarks.