ChatPaper.aiChatPaper

EgoNormia: Benchmarking van het Begrip van Fysieke Sociale Normen

EgoNormia: Benchmarking Physical Social Norm Understanding

February 27, 2025
Auteurs: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang
cs.AI

Samenvatting

Menselijk gedrag wordt gemodereerd door normen. Bij het uitvoeren van acties in de echte wereld volgen mensen niet alleen normen, maar overwegen ze ook de afweging tussen verschillende normen. Machines worden echter vaak getraind zonder expliciet toezicht op normbegrip en -redenering, vooral wanneer de normen verankerd zijn in een fysieke en sociale context. Om het normatieve redeneervermogen van vision-language modellen (VLMs) te verbeteren en te evalueren, presenteren we EgoNormia |epsilon|, bestaande uit 1.853 ego-centrische video's van menselijke interacties, elk met twee gerelateerde vragen die zowel de voorspelling als de rechtvaardiging van normatieve acties evalueren. De normatieve acties omvatten zeven categorieën: veiligheid, privacy, proxemiek, beleefdheid, samenwerking, coördinatie/proactiviteit en communicatie/leesbaarheid. Om deze dataset op schaal samen te stellen, stellen we een nieuwe pijplijn voor die gebruikmaakt van video-sampling, automatische antwoordgeneratie, filtering en menselijke validatie. Ons werk toont aan dat de huidige state-of-the-art vision-language modellen een gebrek hebben aan robuust normbegrip, met een maximale score van 45% op EgoNormia (tegenover een menselijke benchmark van 92%). Onze analyse van de prestaties in elke dimensie benadrukt de aanzienlijke risico's op het gebied van veiligheid, privacy en het gebrek aan samenwerkings- en communicatievermogen bij toepassing op echte wereldagenten. We tonen daarnaast aan dat het mogelijk is om EgoNormia te gebruiken om het normatieve redeneervermogen in VLMs te verbeteren via een retrieval-gebaseerde generatiemethode.
English
Human activity is moderated by norms. When performing actions in the real world, humans not only follow norms, but also consider the trade-off between different norms However, machines are often trained without explicit supervision on norm understanding and reasoning, especially when the norms are grounded in a physical and social context. To improve and evaluate the normative reasoning capability of vision-language models (VLMs), we present EgoNormia |epsilon|, consisting of 1,853 ego-centric videos of human interactions, each of which has two related questions evaluating both the prediction and justification of normative actions. The normative actions encompass seven categories: safety, privacy, proxemics, politeness, cooperation, coordination/proactivity, and communication/legibility. To compile this dataset at scale, we propose a novel pipeline leveraging video sampling, automatic answer generation, filtering, and human validation. Our work demonstrates that current state-of-the-art vision-language models lack robust norm understanding, scoring a maximum of 45% on EgoNormia (versus a human bench of 92%). Our analysis of performance in each dimension highlights the significant risks of safety, privacy, and the lack of collaboration and communication capability when applied to real-world agents. We additionally show that through a retrieval-based generation method, it is possible to use EgoNomia to enhance normative reasoning in VLMs.

Summary

AI-Generated Summary

PDF52March 3, 2025