SEAM: 視覚-言語モデルのための意味的等価性クロスモダリティベンチマーク
SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models
August 25, 2025
著者: Zhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson
cs.AI
要旨
視覚言語モデル(VLM)が異なる表現間で一貫した推論を行っているかどうかを評価することは困難です。なぜなら、モダリティ間の比較は通常、タスクの違いや非対称な情報によって混同されるためです。本研究では、SEAMというベンチマークを導入します。SEAMは、既存の標準化されたテキスト表記と視覚表記を持つ4つの領域において、意味的に等価な入力をペアリングします。OCRベースの画像-テキストペアリングとは異なり、異なる表記体系をモダリティ間で採用することで、SEAMはVLMのテキスト-記号的推論能力と視覚-空間的推論能力を厳密に比較評価します。21の最新モデルを対象とした実験では、体系的にモダリティ間の不均衡が観察されました。視覚は言語に比べて全体的な性能が低く、問題が意味的に等価な情報を含んでいるにもかかわらず、クロスモーダルな一致度は比較的低いことがわかりました。エラー分析から、主な要因として2つが明らかになりました。1つは、領域表記におけるトークン化によるテキスト知覚の失敗、もう1つは幻覚を引き起こす視覚知覚の失敗です。また、視覚的変換に対して結果がほぼロバストであることも示しました。SEAMは、モダリティに依存しない推論を測定し改善するための、制御された意味的等価性を保証する設定を確立します。
English
Evaluating whether vision-language models (VLMs) reason consistently across
representations is challenging because modality comparisons are typically
confounded by task differences and asymmetric information. We introduce SEAM, a
benchmark that pairs semantically equivalent inputs across four domains that
have existing standardized textual and visual notations. By employing distinct
notation systems across modalities, in contrast to OCR-based image-text
pairing, SEAM provides a rigorous comparative assessment of the
textual-symbolic and visual-spatial reasoning capabilities of VLMs. Across 21
contemporary models, we observe systematic modality imbalance: vision
frequently lags language in overall performance, despite the problems
containing semantically equivalent information, and cross-modal agreement is
relatively low. Our error analysis reveals two main drivers: textual perception
failures from tokenization in domain notation and visual perception failures
that induce hallucinations. We also show that our results are largely robust to
visual transformations. SEAM establishes a controlled, semantically equivalent
setting for measuring and improving modality-agnostic reasoning.