GRASP: Aprendendo a Fundamentar o Raciocínio Social em Interações Não-Verbais de Múltiplas Pessoas

Resumo

Compreender interações sociais exige raciocínio sobre sinais não verbais sutis, no entanto, os atuais modelos de linguagem de grande escala multimodais (MLLMs) frequentemente falham em identificar quem interage com quem em vídeos com múltiplas pessoas. Apresentamos o GRASP, um conjunto de dados de raciocínio social em larga escala que conecta perguntas e respostas sociais de alto nível com eventos finos de olhar e gestos dêiticos. O GRASP contém 290 mil pares pergunta-resposta em 46 mil vídeos, totalizando 749 horas, organizados por uma taxonomia de 16 categorias que abrange raciocínio sobre olhar, gesto e a combinação de olhar e gesto, juntamente com o GRASP-Bench para avaliação. Diferentemente de recursos anteriores que se concentram em sinais isolados ou em perguntas e respostas sociais de alto nível, o GRASP constrói perguntas a partir de trajetórias de olhar consistentes com identidades, gestos dêiticos e suas composições conjuntas em eventos sociais. Além disso, propomos a Recompensa de Fundamentação Social (SGR), um sinal de aprendizado que utiliza esses eventos sociais para incentivar os modelos a raciocinar sobre os participantes envolvidos em cada interação. Experimentos mostram que a SGR melhora o desempenho no GRASP-Bench, mantendo o desempenho zero-shot em benchmarks relacionados de perguntas e respostas sobre vídeos sociais.

English

Understanding social interactions requires reasoning over subtle non-verbal cues, yet current multimodal large language models (MLLMs) often fail to identify who interacts with whom in multi-person videos. We introduce GRASP, a large-scale social reasoning dataset that connects high-level social QA with fine-grained gaze and deictic gesture events. GRASP contains 290K question--answer pairs over 46K videos totaling 749 hours, organized by a 16-category taxonomy spanning gaze, gesture, and joint gaze--gesture reasoning, together with GRASP-Bench for evaluation. Unlike prior resources that focus on either isolated cues or high-level social QA, GRASP builds questions from identity-consistent gaze trajectories, deictic gestures, and their joint compositions into social events. Moreover, we propose Social Grounding Reward (SGR), a learning signal that uses these social events to encourage models to reason about the participants involved in each interaction. Experiments show that SGR improves performance on GRASP-Bench while maintaining zero-shot performance on related social video QA benchmarks.