ChatPaper.aiChatPaper

EgoNormia: Evaluación de la Comprensión de Normas Sociales Físicas

EgoNormia: Benchmarking Physical Social Norm Understanding

February 27, 2025
Autores: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang
cs.AI

Resumen

La actividad humana está regulada por normas. Al realizar acciones en el mundo real, los humanos no solo siguen normas, sino que también consideran el equilibrio entre diferentes normas. Sin embargo, las máquinas a menudo se entrenan sin supervisión explícita en la comprensión y razonamiento de normas, especialmente cuando estas están fundamentadas en un contexto físico y social. Para mejorar y evaluar la capacidad de razonamiento normativo de los modelos de visión y lenguaje (VLMs), presentamos EgoNormia |epsilon|, que consta de 1.853 videos egocéntricos de interacciones humanas, cada uno con dos preguntas relacionadas que evalúan tanto la predicción como la justificación de acciones normativas. Estas acciones normativas abarcan siete categorías: seguridad, privacidad, proxémica, cortesía, cooperación, coordinación/proactividad y comunicación/legibilidad. Para compilar este conjunto de datos a gran escala, proponemos una nueva canalización que aprovecha el muestreo de videos, la generación automática de respuestas, el filtrado y la validación humana. Nuestro trabajo demuestra que los modelos de visión y lenguaje más avanzados actualmente carecen de una comprensión robusta de las normas, obteniendo un máximo del 45% en EgoNormia (frente a un 92% en el caso de humanos). Nuestro análisis del rendimiento en cada dimensión destaca los riesgos significativos en seguridad, privacidad y la falta de capacidad de colaboración y comunicación cuando se aplican a agentes del mundo real. Además, mostramos que, mediante un método de generación basado en recuperación, es posible utilizar EgoNormia para mejorar el razonamiento normativo en los VLMs.
English
Human activity is moderated by norms. When performing actions in the real world, humans not only follow norms, but also consider the trade-off between different norms However, machines are often trained without explicit supervision on norm understanding and reasoning, especially when the norms are grounded in a physical and social context. To improve and evaluate the normative reasoning capability of vision-language models (VLMs), we present EgoNormia |epsilon|, consisting of 1,853 ego-centric videos of human interactions, each of which has two related questions evaluating both the prediction and justification of normative actions. The normative actions encompass seven categories: safety, privacy, proxemics, politeness, cooperation, coordination/proactivity, and communication/legibility. To compile this dataset at scale, we propose a novel pipeline leveraging video sampling, automatic answer generation, filtering, and human validation. Our work demonstrates that current state-of-the-art vision-language models lack robust norm understanding, scoring a maximum of 45% on EgoNormia (versus a human bench of 92%). Our analysis of performance in each dimension highlights the significant risks of safety, privacy, and the lack of collaboration and communication capability when applied to real-world agents. We additionally show that through a retrieval-based generation method, it is possible to use EgoNomia to enhance normative reasoning in VLMs.

Summary

AI-Generated Summary

PDF52March 3, 2025