GRASP: Lernen, soziales Schließen in non-verbalen Mehrpersonen-Interaktionen zu verankern

Zusammenfassung

Das Verständnis sozialer Interaktionen erfordert die Interpretation subtiler nonverbaler Hinweise, doch aktuelle multimodale große Sprachmodelle (MLLMs) versagen oft dabei, zu identifizieren, wer in Videos mit mehreren Personen mit wem interagiert. Wir stellen GRASP vor, einen groß angelegten Datensatz zum sozialen Schlussfolgern, der hochrangige soziale Frage-Antwort-Paare mit feinkörnigen Blick- und deiktischen Gestenereignissen verknüpft. GRASP umfasst 290.000 Frage-Antwort-Paare aus 46.000 Videos mit einer Gesamtdauer von 749 Stunden, organisiert nach einer 16 Kategorien umfassenden Taxonomie, die Blick-, Gesten- und kombinierte Blick-Gesten-Schlussfolgerungen abdeckt, zusammen mit GRASP-Bench zur Evaluierung. Im Gegensatz zu früheren Ressourcen, die sich entweder auf isolierte Hinweise oder hochrangige soziale QA konzentrieren, erstellt GRASP Fragen auf der Grundlage identitätskonsistenter Blickbahnen, deiktischer Gesten und deren gemeinsamer Zusammensetzung zu sozialen Ereignissen. Darüber hinaus schlagen wir Social Grounding Reward (SGR) vor, ein Lernsignal, das diese sozialen Ereignisse nutzt, um Modelle dazu zu ermutigen, die an jeder Interaktion beteiligten Teilnehmer zu identifizieren. Experimente zeigen, dass SGR die Leistung auf GRASP-Bench verbessert, während die Zero-Shot-Leistung auf verwandten sozialen Video-QA-Benchmarks erhalten bleibt.

English

Understanding social interactions requires reasoning over subtle non-verbal cues, yet current multimodal large language models (MLLMs) often fail to identify who interacts with whom in multi-person videos. We introduce GRASP, a large-scale social reasoning dataset that connects high-level social QA with fine-grained gaze and deictic gesture events. GRASP contains 290K question--answer pairs over 46K videos totaling 749 hours, organized by a 16-category taxonomy spanning gaze, gesture, and joint gaze--gesture reasoning, together with GRASP-Bench for evaluation. Unlike prior resources that focus on either isolated cues or high-level social QA, GRASP builds questions from identity-consistent gaze trajectories, deictic gestures, and their joint compositions into social events. Moreover, we propose Social Grounding Reward (SGR), a learning signal that uses these social events to encourage models to reason about the participants involved in each interaction. Experiments show that SGR improves performance on GRASP-Bench while maintaining zero-shot performance on related social video QA benchmarks.