EgoNormia: Avaliação do Entendimento de Normas Sociais Físicas
EgoNormia: Benchmarking Physical Social Norm Understanding
February 27, 2025
Autores: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang
cs.AI
Resumo
A atividade humana é moderada por normas. Ao realizar ações no mundo real, os seres humanos não apenas seguem normas, mas também consideram o equilíbrio entre diferentes normas. No entanto, as máquinas são frequentemente treinadas sem supervisão explícita sobre a compreensão e o raciocínio normativo, especialmente quando as normas estão fundamentadas em um contexto físico e social. Para melhorar e avaliar a capacidade de raciocínio normativo dos modelos de visão e linguagem (VLMs), apresentamos o EgoNormia |epsilon|, que consiste em 1.853 vídeos egocêntricos de interações humanas, cada um com duas questões relacionadas que avaliam tanto a previsão quanto a justificativa de ações normativas. As ações normativas abrangem sete categorias: segurança, privacidade, proxêmica, polidez, cooperação, coordenação/proatividade e comunicação/legibilidade. Para compilar esse conjunto de dados em escala, propomos um novo pipeline que aproveita a amostragem de vídeos, geração automática de respostas, filtragem e validação humana. Nosso trabalho demonstra que os modelos de visão e linguagem mais avançados atualmente carecem de uma compreensão robusta das normas, atingindo no máximo 45% no EgoNormia (em comparação com um benchmark humano de 92%). Nossa análise do desempenho em cada dimensão destaca os riscos significativos de segurança, privacidade e a falta de capacidade de colaboração e comunicação quando aplicados a agentes do mundo real. Além disso, mostramos que, por meio de um método de geração baseado em recuperação, é possível usar o EgoNormia para aprimorar o raciocínio normativo em VLMs.
English
Human activity is moderated by norms. When performing actions in the real
world, humans not only follow norms, but also consider the trade-off between
different norms However, machines are often trained without explicit
supervision on norm understanding and reasoning, especially when the norms are
grounded in a physical and social context. To improve and evaluate the
normative reasoning capability of vision-language models (VLMs), we present
EgoNormia |epsilon|, consisting of 1,853 ego-centric videos of human
interactions, each of which has two related questions evaluating both the
prediction and justification of normative actions. The normative actions
encompass seven categories: safety, privacy, proxemics, politeness,
cooperation, coordination/proactivity, and communication/legibility. To compile
this dataset at scale, we propose a novel pipeline leveraging video sampling,
automatic answer generation, filtering, and human validation. Our work
demonstrates that current state-of-the-art vision-language models lack robust
norm understanding, scoring a maximum of 45% on EgoNormia (versus a human bench
of 92%). Our analysis of performance in each dimension highlights the
significant risks of safety, privacy, and the lack of collaboration and
communication capability when applied to real-world agents. We additionally
show that through a retrieval-based generation method, it is possible to use
EgoNomia to enhance normative reasoning in VLMs.Summary
AI-Generated Summary