EgoNormia: Benchmark per la Comprensione delle Norme Sociali Fisiche
EgoNormia: Benchmarking Physical Social Norm Understanding
February 27, 2025
Autori: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang
cs.AI
Abstract
L'attività umana è regolata da norme. Quando compiono azioni nel mondo reale, gli esseri umani non solo seguono le norme, ma considerano anche il compromesso tra norme diverse. Tuttavia, le macchine vengono spesso addestrate senza una supervisione esplicita sulla comprensione e il ragionamento normativo, specialmente quando le norme sono radicate in un contesto fisico e sociale. Per migliorare e valutare la capacità di ragionamento normativo dei modelli visione-linguaggio (VLMs), presentiamo EgoNormia |epsilon|, composto da 1.853 video egocentrici di interazioni umane, ciascuno dei quali ha due domande correlate che valutano sia la previsione che la giustificazione delle azioni normative. Le azioni normative comprendono sette categorie: sicurezza, privacy, prossemica, cortesia, cooperazione, coordinazione/proattività e comunicazione/leggibilità. Per compilare questo dataset su larga scala, proponiamo una nuova pipeline che sfrutta il campionamento video, la generazione automatica di risposte, il filtraggio e la validazione umana. Il nostro lavoro dimostra che gli attuali modelli visione-linguaggio all'avanguardia mancano di una solida comprensione delle norme, ottenendo un massimo del 45% su EgoNormia (rispetto a un benchmark umano del 92%). La nostra analisi delle prestazioni in ciascuna dimensione evidenzia i significativi rischi per la sicurezza, la privacy e la mancanza di capacità di collaborazione e comunicazione quando applicati ad agenti nel mondo reale. Inoltre, mostriamo che attraverso un metodo di generazione basato sul recupero, è possibile utilizzare EgoNomia per potenziare il ragionamento normativo nei VLMs.
English
Human activity is moderated by norms. When performing actions in the real
world, humans not only follow norms, but also consider the trade-off between
different norms However, machines are often trained without explicit
supervision on norm understanding and reasoning, especially when the norms are
grounded in a physical and social context. To improve and evaluate the
normative reasoning capability of vision-language models (VLMs), we present
EgoNormia |epsilon|, consisting of 1,853 ego-centric videos of human
interactions, each of which has two related questions evaluating both the
prediction and justification of normative actions. The normative actions
encompass seven categories: safety, privacy, proxemics, politeness,
cooperation, coordination/proactivity, and communication/legibility. To compile
this dataset at scale, we propose a novel pipeline leveraging video sampling,
automatic answer generation, filtering, and human validation. Our work
demonstrates that current state-of-the-art vision-language models lack robust
norm understanding, scoring a maximum of 45% on EgoNormia (versus a human bench
of 92%). Our analysis of performance in each dimension highlights the
significant risks of safety, privacy, and the lack of collaboration and
communication capability when applied to real-world agents. We additionally
show that through a retrieval-based generation method, it is possible to use
EgoNomia to enhance normative reasoning in VLMs.Summary
AI-Generated Summary