EgoNormia: 물리적 사회 규범 이해 벤치마킹
EgoNormia: Benchmarking Physical Social Norm Understanding
February 27, 2025
저자: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang
cs.AI
초록
인간의 활동은 규범에 의해 조절됩니다. 현실 세계에서 행동을 수행할 때, 인간은 규범을 따를 뿐만 아니라 서로 다른 규범 간의 균형도 고려합니다. 그러나 기계는 종종 규범 이해와 추론에 대한 명시적인 지도 없이 훈련되며, 특히 규범이 물리적 및 사회적 맥락에 기반할 때 더욱 그러합니다. 시각-언어 모델(VLMs)의 규범적 추론 능력을 향상하고 평가하기 위해, 우리는 EgoNormia |ε|를 제시합니다. 이 데이터셋은 인간 상호작용을 담은 1,853개의 자기 중심적 비디오로 구성되어 있으며, 각 비디오에는 규범적 행동의 예측과 정당성을 평가하는 두 가지 관련 질문이 포함되어 있습니다. 규범적 행동은 안전, 프라이버시, 근접성, 예의, 협력, 조정/주도성, 의사소통/명료성 등 일곱 가지 범주를 포괄합니다. 이 데이터셋을 대규모로 구축하기 위해, 우리는 비디오 샘플링, 자동 답변 생성, 필터링, 그리고 인간 검증을 활용한 새로운 파이프라인을 제안합니다. 우리의 연구는 현재 최첨단 시각-언어 모델들이 견고한 규범 이해가 부족하며, EgoNormia에서 최대 45%의 점수를 기록함을 보여줍니다(인간 벤치마크는 92%). 각 차원에서의 성능 분석은 실제 세계의 에이전트에 적용할 때 안전, 프라이버시, 그리고 협력 및 의사소통 능력의 부재와 같은 중대한 위험을 강조합니다. 또한, 우리는 검색 기반 생성 방법을 통해 EgoNormia를 사용하여 시각-언어 모델의 규범적 추론을 향상시킬 수 있음을 보여줍니다.
English
Human activity is moderated by norms. When performing actions in the real
world, humans not only follow norms, but also consider the trade-off between
different norms However, machines are often trained without explicit
supervision on norm understanding and reasoning, especially when the norms are
grounded in a physical and social context. To improve and evaluate the
normative reasoning capability of vision-language models (VLMs), we present
EgoNormia |epsilon|, consisting of 1,853 ego-centric videos of human
interactions, each of which has two related questions evaluating both the
prediction and justification of normative actions. The normative actions
encompass seven categories: safety, privacy, proxemics, politeness,
cooperation, coordination/proactivity, and communication/legibility. To compile
this dataset at scale, we propose a novel pipeline leveraging video sampling,
automatic answer generation, filtering, and human validation. Our work
demonstrates that current state-of-the-art vision-language models lack robust
norm understanding, scoring a maximum of 45% on EgoNormia (versus a human bench
of 92%). Our analysis of performance in each dimension highlights the
significant risks of safety, privacy, and the lack of collaboration and
communication capability when applied to real-world agents. We additionally
show that through a retrieval-based generation method, it is possible to use
EgoNomia to enhance normative reasoning in VLMs.Summary
AI-Generated Summary