EgoNormia: Benchmarking des Verständnisses physischer sozialer Normen
EgoNormia: Benchmarking Physical Social Norm Understanding
February 27, 2025
Autoren: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang
cs.AI
Zusammenfassung
Menschliches Handeln wird durch Normen reguliert. Wenn Menschen Handlungen in der realen Welt ausführen, folgen sie nicht nur Normen, sondern berücksichtigen auch den Abwägungsprozess zwischen verschiedenen Normen. Maschinen hingegen werden oft ohne explizite Anleitung zum Verständnis und zur Argumentation von Normen trainiert, insbesondere wenn diese Normen in einem physischen und sozialen Kontext verankert sind. Um die normative Argumentationsfähigkeit von Vision-Sprach-Modellen (VLMs) zu verbessern und zu bewerten, stellen wir EgoNormia |epsilon| vor, das aus 1.853 egozentrischen Videos menschlicher Interaktionen besteht, von denen jedes zwei verwandte Fragen enthält, die sowohl die Vorhersage als auch die Begründung normativer Handlungen bewerten. Die normativen Handlungen umfassen sieben Kategorien: Sicherheit, Privatsphäre, Proxemik, Höflichkeit, Kooperation, Koordination/Proaktivität und Kommunikation/Verständlichkeit. Um diesen Datensatz in großem Maßstab zu erstellen, schlagen wir eine neuartige Pipeline vor, die Video-Sampling, automatische Antwortgenerierung, Filterung und menschliche Validierung nutzt. Unsere Arbeit zeigt, dass aktuelle state-of-the-art Vision-Sprach-Modelle ein mangelhaftes Verständnis von Normen aufweisen und auf EgoNormia maximal 45 % erreichen (im Vergleich zu einer menschlichen Benchmark von 92 %). Unsere Analyse der Leistung in jeder Dimension unterstreicht die erheblichen Risiken in Bezug auf Sicherheit, Privatsphäre sowie die mangelnde Fähigkeit zur Zusammenarbeit und Kommunikation, wenn diese Modelle auf reale Agenten angewendet werden. Zusätzlich zeigen wir, dass es durch eine retrieverbasierte Generationsmethode möglich ist, EgoNormia zu nutzen, um die normative Argumentationsfähigkeit in VLMs zu verbessern.
English
Human activity is moderated by norms. When performing actions in the real
world, humans not only follow norms, but also consider the trade-off between
different norms However, machines are often trained without explicit
supervision on norm understanding and reasoning, especially when the norms are
grounded in a physical and social context. To improve and evaluate the
normative reasoning capability of vision-language models (VLMs), we present
EgoNormia |epsilon|, consisting of 1,853 ego-centric videos of human
interactions, each of which has two related questions evaluating both the
prediction and justification of normative actions. The normative actions
encompass seven categories: safety, privacy, proxemics, politeness,
cooperation, coordination/proactivity, and communication/legibility. To compile
this dataset at scale, we propose a novel pipeline leveraging video sampling,
automatic answer generation, filtering, and human validation. Our work
demonstrates that current state-of-the-art vision-language models lack robust
norm understanding, scoring a maximum of 45% on EgoNormia (versus a human bench
of 92%). Our analysis of performance in each dimension highlights the
significant risks of safety, privacy, and the lack of collaboration and
communication capability when applied to real-world agents. We additionally
show that through a retrieval-based generation method, it is possible to use
EgoNomia to enhance normative reasoning in VLMs.Summary
AI-Generated Summary