EgoNormia : Évaluation de la compréhension des normes sociales physiques
EgoNormia: Benchmarking Physical Social Norm Understanding
February 27, 2025
Auteurs: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang
cs.AI
Résumé
L'activité humaine est régulée par des normes. Lorsqu'ils effectuent des actions dans le monde réel, les humains non seulement suivent ces normes, mais évaluent également les compromis entre différentes normes. Cependant, les machines sont souvent entraînées sans supervision explicite sur la compréhension et le raisonnement normatif, en particulier lorsque ces normes sont ancrées dans un contexte physique et social. Pour améliorer et évaluer la capacité de raisonnement normatif des modèles vision-langage (VLMs), nous présentons EgoNormia |epsilon|, un ensemble de 1 853 vidéos égocentriques d'interactions humaines, chacune accompagnée de deux questions évaluant à la fois la prédiction et la justification des actions normatives. Ces actions normatives couvrent sept catégories : sécurité, confidentialité, proxémique, politesse, coopération, coordination/proactivité, et communication/lisibilité. Pour compiler ce jeu de données à grande échelle, nous proposons une nouvelle pipeline exploitant l'échantillonnage vidéo, la génération automatique de réponses, le filtrage et la validation humaine. Notre travail montre que les modèles vision-langage actuels manquent d'une compréhension robuste des normes, atteignant un score maximal de 45 % sur EgoNormia (contre 92 % pour un benchmark humain). Notre analyse des performances dans chaque dimension met en lumière les risques significatifs en matière de sécurité, de confidentialité, ainsi que le manque de capacités de collaboration et de communication lorsqu'ils sont appliqués à des agents dans le monde réel. Nous montrons également qu'à travers une méthode de génération basée sur la recherche d'information, il est possible d'utiliser EgoNormia pour améliorer le raisonnement normatif des VLMs.
English
Human activity is moderated by norms. When performing actions in the real
world, humans not only follow norms, but also consider the trade-off between
different norms However, machines are often trained without explicit
supervision on norm understanding and reasoning, especially when the norms are
grounded in a physical and social context. To improve and evaluate the
normative reasoning capability of vision-language models (VLMs), we present
EgoNormia |epsilon|, consisting of 1,853 ego-centric videos of human
interactions, each of which has two related questions evaluating both the
prediction and justification of normative actions. The normative actions
encompass seven categories: safety, privacy, proxemics, politeness,
cooperation, coordination/proactivity, and communication/legibility. To compile
this dataset at scale, we propose a novel pipeline leveraging video sampling,
automatic answer generation, filtering, and human validation. Our work
demonstrates that current state-of-the-art vision-language models lack robust
norm understanding, scoring a maximum of 45% on EgoNormia (versus a human bench
of 92%). Our analysis of performance in each dimension highlights the
significant risks of safety, privacy, and the lack of collaboration and
communication capability when applied to real-world agents. We additionally
show that through a retrieval-based generation method, it is possible to use
EgoNomia to enhance normative reasoning in VLMs.Summary
AI-Generated Summary