EgoNormia: 物理的社会的規範理解のベンチマーキング
EgoNormia: Benchmarking Physical Social Norm Understanding
February 27, 2025
著者: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang
cs.AI
要旨
人間の活動は規範によって調整されています。現実世界で行動する際、人間は規範に従うだけでなく、異なる規範間のトレードオフも考慮します。しかし、機械は特に物理的・社会的文脈に基づく規範において、規範理解と推論に関する明示的な指導なしに訓練されることが多いです。視覚言語モデル(VLM)の規範的推論能力を向上・評価するため、我々はEgoNormia |ε|を提示します。これは1,853のエゴセントリックな人間の相互作用のビデオから成り、それぞれに規範的行動の予測と正当化を評価する2つの関連質問が付随しています。規範的行動は、安全性、プライバシー、近接学、礼儀正しさ、協力、調整/積極性、コミュニケーション/明瞭性の7つのカテゴリに及びます。このデータセットを大規模に構築するため、ビデオサンプリング、自動回答生成、フィルタリング、人間による検証を活用した新しいパイプラインを提案します。我々の研究は、最先端の視覚言語モデルが堅牢な規範理解を欠いており、EgoNormiaで最大45%のスコア(人間のベンチマーク92%に対して)しか得られないことを示しています。各次元でのパフォーマンス分析から、現実世界のエージェントに適用した際の安全性、プライバシーの重大なリスク、および協力とコミュニケーション能力の欠如が浮き彫りになりました。さらに、検索ベースの生成手法を通じて、EgoNomiaを活用してVLMの規範的推論を強化できる可能性を示します。
English
Human activity is moderated by norms. When performing actions in the real
world, humans not only follow norms, but also consider the trade-off between
different norms However, machines are often trained without explicit
supervision on norm understanding and reasoning, especially when the norms are
grounded in a physical and social context. To improve and evaluate the
normative reasoning capability of vision-language models (VLMs), we present
EgoNormia |epsilon|, consisting of 1,853 ego-centric videos of human
interactions, each of which has two related questions evaluating both the
prediction and justification of normative actions. The normative actions
encompass seven categories: safety, privacy, proxemics, politeness,
cooperation, coordination/proactivity, and communication/legibility. To compile
this dataset at scale, we propose a novel pipeline leveraging video sampling,
automatic answer generation, filtering, and human validation. Our work
demonstrates that current state-of-the-art vision-language models lack robust
norm understanding, scoring a maximum of 45% on EgoNormia (versus a human bench
of 92%). Our analysis of performance in each dimension highlights the
significant risks of safety, privacy, and the lack of collaboration and
communication capability when applied to real-world agents. We additionally
show that through a retrieval-based generation method, it is possible to use
EgoNomia to enhance normative reasoning in VLMs.Summary
AI-Generated Summary