ChatPaper.aiChatPaper

EgoNormia: Benchmark per la Comprensione delle Norme Sociali Fisiche

EgoNormia: Benchmarking Physical Social Norm Understanding

February 27, 2025
Autori: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang
cs.AI

Abstract

L'attività umana è regolata da norme. Quando compiono azioni nel mondo reale, gli esseri umani non solo seguono le norme, ma considerano anche il compromesso tra norme diverse. Tuttavia, le macchine vengono spesso addestrate senza una supervisione esplicita sulla comprensione e il ragionamento normativo, specialmente quando le norme sono radicate in un contesto fisico e sociale. Per migliorare e valutare la capacità di ragionamento normativo dei modelli visione-linguaggio (VLMs), presentiamo EgoNormia |epsilon|, composto da 1.853 video egocentrici di interazioni umane, ciascuno dei quali ha due domande correlate che valutano sia la previsione che la giustificazione delle azioni normative. Le azioni normative comprendono sette categorie: sicurezza, privacy, prossemica, cortesia, cooperazione, coordinazione/proattività e comunicazione/leggibilità. Per compilare questo dataset su larga scala, proponiamo una nuova pipeline che sfrutta il campionamento video, la generazione automatica di risposte, il filtraggio e la validazione umana. Il nostro lavoro dimostra che gli attuali modelli visione-linguaggio all'avanguardia mancano di una solida comprensione delle norme, ottenendo un massimo del 45% su EgoNormia (rispetto a un benchmark umano del 92%). La nostra analisi delle prestazioni in ciascuna dimensione evidenzia i significativi rischi per la sicurezza, la privacy e la mancanza di capacità di collaborazione e comunicazione quando applicati ad agenti nel mondo reale. Inoltre, mostriamo che attraverso un metodo di generazione basato sul recupero, è possibile utilizzare EgoNomia per potenziare il ragionamento normativo nei VLMs.
English
Human activity is moderated by norms. When performing actions in the real world, humans not only follow norms, but also consider the trade-off between different norms However, machines are often trained without explicit supervision on norm understanding and reasoning, especially when the norms are grounded in a physical and social context. To improve and evaluate the normative reasoning capability of vision-language models (VLMs), we present EgoNormia |epsilon|, consisting of 1,853 ego-centric videos of human interactions, each of which has two related questions evaluating both the prediction and justification of normative actions. The normative actions encompass seven categories: safety, privacy, proxemics, politeness, cooperation, coordination/proactivity, and communication/legibility. To compile this dataset at scale, we propose a novel pipeline leveraging video sampling, automatic answer generation, filtering, and human validation. Our work demonstrates that current state-of-the-art vision-language models lack robust norm understanding, scoring a maximum of 45% on EgoNormia (versus a human bench of 92%). Our analysis of performance in each dimension highlights the significant risks of safety, privacy, and the lack of collaboration and communication capability when applied to real-world agents. We additionally show that through a retrieval-based generation method, it is possible to use EgoNomia to enhance normative reasoning in VLMs.

Summary

AI-Generated Summary

PDF52March 3, 2025