GRASP: Leren om sociale redenering te gronden in meerpersoons non-verbale interacties

Samenvatting

Het begrijpen van sociale interacties vereist het redeneren over subtiele non-verbale signalen, maar huidige multimodale grote taalmodellen (MLLM's) slagen er vaak niet in om te identificeren wie met wie interageert in video's met meerdere personen. We introduceren GRASP, een grootschalige sociale-redeneringsdataset die hoogwaardige sociale vraag-antwoordkoppelingen combineert met fijnmazige blik- en deïctische gebeurtenissen. GRASP bevat 290K vraag-antwoordparen over 46K video's met een totale duur van 749 uur, georganiseerd volgens een taxonomie van 16 categorieën die blik, gebaar en gecombineerde blik-gebaarredenering omvatten, samen met GRASP-Bench voor evaluatie. In tegenstelling tot eerdere bronnen die zich richten op geïsoleerde signalen of hoogwaardige sociale QA, bouwt GRASP vragen op basis van identiteitsconsistente bliktrajecten, deïctische gebaren en hun gezamenlijke samenstellingen tot sociale gebeurtenissen. Bovendien stellen we Social Grounding Reward (SGR) voor, een leersignaal dat deze sociale gebeurtenissen gebruikt om modellen aan te moedigen te redeneren over de deelnemers aan elke interactie. Experimenten tonen aan dat SGR de prestaties op GRASP-Bench verbetert terwijl de zero-shot-prestaties op gerelateerde sociale video-QA-benchmarks behouden blijven.

English

Understanding social interactions requires reasoning over subtle non-verbal cues, yet current multimodal large language models (MLLMs) often fail to identify who interacts with whom in multi-person videos. We introduce GRASP, a large-scale social reasoning dataset that connects high-level social QA with fine-grained gaze and deictic gesture events. GRASP contains 290K question--answer pairs over 46K videos totaling 749 hours, organized by a 16-category taxonomy spanning gaze, gesture, and joint gaze--gesture reasoning, together with GRASP-Bench for evaluation. Unlike prior resources that focus on either isolated cues or high-level social QA, GRASP builds questions from identity-consistent gaze trajectories, deictic gestures, and their joint compositions into social events. Moreover, we propose Social Grounding Reward (SGR), a learning signal that uses these social events to encourage models to reason about the participants involved in each interaction. Experiments show that SGR improves performance on GRASP-Bench while maintaining zero-shot performance on related social video QA benchmarks.