SEAM : Benchmark d'Équivalence Sémantique à Travers les Modalités pour les Modèles Vision-Langage
SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models
August 25, 2025
papers.authors: Zhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson
cs.AI
papers.abstract
Évaluer si les modèles vision-langage (VLMs) raisonnent de manière cohérente à travers différentes représentations est un défi, car les comparaisons entre modalités sont généralement biaisées par des différences de tâches et des informations asymétriques. Nous introduisons SEAM, un benchmark qui associe des entrées sémantiquement équivalentes à travers quatre domaines disposant de notations textuelles et visuelles standardisées. En utilisant des systèmes de notation distincts entre les modalités, contrairement à l'appariement image-texte basé sur la reconnaissance optique de caractères (OCR), SEAM offre une évaluation comparative rigoureuse des capacités de raisonnement textuel-symbolique et visuel-spatial des VLMs. Sur 21 modèles contemporains, nous observons un déséquilibre systématique entre les modalités : la vision est souvent en retard par rapport au langage en termes de performance globale, malgré des problèmes contenant des informations sémantiquement équivalentes, et l'accord intermodal est relativement faible. Notre analyse des erreurs révèle deux principaux facteurs : des échecs de perception textuelle dus à la tokenisation dans la notation du domaine et des échecs de perception visuelle qui induisent des hallucinations. Nous montrons également que nos résultats sont largement robustes aux transformations visuelles. SEAM établit un cadre contrôlé et sémantiquement équivalent pour mesurer et améliorer le raisonnement indépendant des modalités.
English
Evaluating whether vision-language models (VLMs) reason consistently across
representations is challenging because modality comparisons are typically
confounded by task differences and asymmetric information. We introduce SEAM, a
benchmark that pairs semantically equivalent inputs across four domains that
have existing standardized textual and visual notations. By employing distinct
notation systems across modalities, in contrast to OCR-based image-text
pairing, SEAM provides a rigorous comparative assessment of the
textual-symbolic and visual-spatial reasoning capabilities of VLMs. Across 21
contemporary models, we observe systematic modality imbalance: vision
frequently lags language in overall performance, despite the problems
containing semantically equivalent information, and cross-modal agreement is
relatively low. Our error analysis reveals two main drivers: textual perception
failures from tokenization in domain notation and visual perception failures
that induce hallucinations. We also show that our results are largely robust to
visual transformations. SEAM establishes a controlled, semantically equivalent
setting for measuring and improving modality-agnostic reasoning.