ChatPaper.aiChatPaper

GRASP: Обучение обоснованию социальных рассуждений в многосубъектных невербальных взаимодействиях

GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions

May 15, 2026
Авторы: Junho Kim, Xu Cao, Houze Yang, Bikram Boote, Ana Jojic, Fiona Ryan, Bolin Lai, Sangmin Lee, James M. Rehg
cs.AI

Аннотация

Понимание социальных взаимодействий требует рассуждений на основе тонких невербальных сигналов, однако современные мультимодальные большие языковые модели (MLLM) зачастую неспособны определить, кто с кем взаимодействует в видео с несколькими участниками. Мы представляем GRASP — крупномасштабный набор данных для социального рассуждения, который связывает высокоуровневые социальные вопросы и ответы (QA) с детальными событиями взгляда и дейктических жестов. GRASP содержит 290 тысяч пар «вопрос–ответ» по 46 тысяч видео общей продолжительностью 749 часов, организованных в 16-категорийную таксономию, охватывающую рассуждения о взгляде, жестах и совместном взгляде и жестах, а также эталонный набор GRASP-Bench для оценки. В отличие от предыдущих ресурсов, которые сосредоточены либо на изолированных сигналах, либо на высокоуровневом социальном QA, GRASP формирует вопросы на основе согласованных с идентичностью траекторий взгляда, дейктических жестов и их совместных композиций в социальные события. Кроме того, мы предлагаем стимул социального обоснования (Social Grounding Reward, SGR) — обучающий сигнал, который использует эти социальные события, чтобы побудить модели рассуждать об участниках каждого взаимодействия. Эксперименты показывают, что SGR улучшает производительность на GRASP-Bench, сохраняя при этом нулевую производительность на смежных эталонных тестах социального видео QA.
English
Understanding social interactions requires reasoning over subtle non-verbal cues, yet current multimodal large language models (MLLMs) often fail to identify who interacts with whom in multi-person videos. We introduce GRASP, a large-scale social reasoning dataset that connects high-level social QA with fine-grained gaze and deictic gesture events. GRASP contains 290K question--answer pairs over 46K videos totaling 749 hours, organized by a 16-category taxonomy spanning gaze, gesture, and joint gaze--gesture reasoning, together with GRASP-Bench for evaluation. Unlike prior resources that focus on either isolated cues or high-level social QA, GRASP builds questions from identity-consistent gaze trajectories, deictic gestures, and their joint compositions into social events. Moreover, we propose Social Grounding Reward (SGR), a learning signal that uses these social events to encourage models to reason about the participants involved in each interaction. Experiments show that SGR improves performance on GRASP-Bench while maintaining zero-shot performance on related social video QA benchmarks.