GRASP: Aprendizaje para fundamentar el razonamiento social en interacciones no verbales entre múltiples personas

Resumen

Comprender las interacciones sociales requiere razonar sobre señales no verbales sutiles; sin embargo, los modelos de lenguaje grandes multimodales (MLLMs) actuales suelen fallar al identificar quién interactúa con quién en videos con múltiples personas. Presentamos GRASP, un conjunto de datos de razonamiento social a gran escala que conecta preguntas-respuestas (QA) sociales de alto nivel con eventos detallados de mirada y gestos deícticos. GRASP contiene 290K pares de pregunta-respuesta sobre 46K videos que suman 749 horas, organizados según una taxonomía de 16 categorías que abarcan razonamiento sobre mirada, gesto y la combinación de mirada y gesto, junto con GRASP-Bench para evaluación. A diferencia de recursos anteriores que se centran en señales aisladas o en preguntas-respuestas sociales de alto nivel, GRASP construye preguntas a partir de trayectorias de mirada consistentes con la identidad, gestos deícticos y sus composiciones conjuntas en eventos sociales. Además, proponemos la Recompensa de Fundamentación Social (SGR), una señal de aprendizaje que utiliza estos eventos sociales para incentivar a los modelos a razonar sobre los participantes involucrados en cada interacción. Los experimentos muestran que SGR mejora el rendimiento en GRASP-Bench, manteniendo al mismo tiempo un rendimiento de cero disparos en conjuntos de datos relacionados de preguntas-respuestas sobre videos sociales.

English

Understanding social interactions requires reasoning over subtle non-verbal cues, yet current multimodal large language models (MLLMs) often fail to identify who interacts with whom in multi-person videos. We introduce GRASP, a large-scale social reasoning dataset that connects high-level social QA with fine-grained gaze and deictic gesture events. GRASP contains 290K question--answer pairs over 46K videos totaling 749 hours, organized by a 16-category taxonomy spanning gaze, gesture, and joint gaze--gesture reasoning, together with GRASP-Bench for evaluation. Unlike prior resources that focus on either isolated cues or high-level social QA, GRASP builds questions from identity-consistent gaze trajectories, deictic gestures, and their joint compositions into social events. Moreover, we propose Social Grounding Reward (SGR), a learning signal that uses these social events to encourage models to reason about the participants involved in each interaction. Experiments show that SGR improves performance on GRASP-Bench while maintaining zero-shot performance on related social video QA benchmarks.