EgoNormia: Evaluación de la Comprensión de Normas Sociales Físicas
EgoNormia: Benchmarking Physical Social Norm Understanding
February 27, 2025
Autores: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang
cs.AI
Resumen
La actividad humana está regulada por normas. Al realizar acciones en el mundo real, los humanos no solo siguen normas, sino que también consideran el equilibrio entre diferentes normas. Sin embargo, las máquinas a menudo se entrenan sin supervisión explícita en la comprensión y razonamiento de normas, especialmente cuando estas están fundamentadas en un contexto físico y social. Para mejorar y evaluar la capacidad de razonamiento normativo de los modelos de visión y lenguaje (VLMs), presentamos EgoNormia |epsilon|, que consta de 1.853 videos egocéntricos de interacciones humanas, cada uno con dos preguntas relacionadas que evalúan tanto la predicción como la justificación de acciones normativas. Estas acciones normativas abarcan siete categorías: seguridad, privacidad, proxémica, cortesía, cooperación, coordinación/proactividad y comunicación/legibilidad. Para compilar este conjunto de datos a gran escala, proponemos una nueva canalización que aprovecha el muestreo de videos, la generación automática de respuestas, el filtrado y la validación humana. Nuestro trabajo demuestra que los modelos de visión y lenguaje más avanzados actualmente carecen de una comprensión robusta de las normas, obteniendo un máximo del 45% en EgoNormia (frente a un 92% en el caso de humanos). Nuestro análisis del rendimiento en cada dimensión destaca los riesgos significativos en seguridad, privacidad y la falta de capacidad de colaboración y comunicación cuando se aplican a agentes del mundo real. Además, mostramos que, mediante un método de generación basado en recuperación, es posible utilizar EgoNormia para mejorar el razonamiento normativo en los VLMs.
English
Human activity is moderated by norms. When performing actions in the real
world, humans not only follow norms, but also consider the trade-off between
different norms However, machines are often trained without explicit
supervision on norm understanding and reasoning, especially when the norms are
grounded in a physical and social context. To improve and evaluate the
normative reasoning capability of vision-language models (VLMs), we present
EgoNormia |epsilon|, consisting of 1,853 ego-centric videos of human
interactions, each of which has two related questions evaluating both the
prediction and justification of normative actions. The normative actions
encompass seven categories: safety, privacy, proxemics, politeness,
cooperation, coordination/proactivity, and communication/legibility. To compile
this dataset at scale, we propose a novel pipeline leveraging video sampling,
automatic answer generation, filtering, and human validation. Our work
demonstrates that current state-of-the-art vision-language models lack robust
norm understanding, scoring a maximum of 45% on EgoNormia (versus a human bench
of 92%). Our analysis of performance in each dimension highlights the
significant risks of safety, privacy, and the lack of collaboration and
communication capability when applied to real-world agents. We additionally
show that through a retrieval-based generation method, it is possible to use
EgoNomia to enhance normative reasoning in VLMs.Summary
AI-Generated Summary