GRASP: Обучение обоснованию социальных рассуждений в многосубъектных невербальных взаимодействиях

Аннотация

Понимание социальных взаимодействий требует рассуждений на основе тонких невербальных сигналов, однако современные мультимодальные большие языковые модели (MLLM) зачастую неспособны определить, кто с кем взаимодействует в видео с несколькими участниками. Мы представляем GRASP — крупномасштабный набор данных для социального рассуждения, который связывает высокоуровневые социальные вопросы и ответы (QA) с детальными событиями взгляда и дейктических жестов. GRASP содержит 290 тысяч пар «вопрос–ответ» по 46 тысяч видео общей продолжительностью 749 часов, организованных в 16-категорийную таксономию, охватывающую рассуждения о взгляде, жестах и совместном взгляде и жестах, а также эталонный набор GRASP-Bench для оценки. В отличие от предыдущих ресурсов, которые сосредоточены либо на изолированных сигналах, либо на высокоуровневом социальном QA, GRASP формирует вопросы на основе согласованных с идентичностью траекторий взгляда, дейктических жестов и их совместных композиций в социальные события. Кроме того, мы предлагаем стимул социального обоснования (Social Grounding Reward, SGR) — обучающий сигнал, который использует эти социальные события, чтобы побудить модели рассуждать об участниках каждого взаимодействия. Эксперименты показывают, что SGR улучшает производительность на GRASP-Bench, сохраняя при этом нулевую производительность на смежных эталонных тестах социального видео QA.

English

Understanding social interactions requires reasoning over subtle non-verbal cues, yet current multimodal large language models (MLLMs) often fail to identify who interacts with whom in multi-person videos. We introduce GRASP, a large-scale social reasoning dataset that connects high-level social QA with fine-grained gaze and deictic gesture events. GRASP contains 290K question--answer pairs over 46K videos totaling 749 hours, organized by a 16-category taxonomy spanning gaze, gesture, and joint gaze--gesture reasoning, together with GRASP-Bench for evaluation. Unlike prior resources that focus on either isolated cues or high-level social QA, GRASP builds questions from identity-consistent gaze trajectories, deictic gestures, and their joint compositions into social events. Moreover, we propose Social Grounding Reward (SGR), a learning signal that uses these social events to encourage models to reason about the participants involved in each interaction. Experiments show that SGR improves performance on GRASP-Bench while maintaining zero-shot performance on related social video QA benchmarks.